AutoThink: 適応型推論でローカルLLMの性能を向上

(news.ycombinator.com)

2 ポイント投稿者 GN⁺ 2025-05-29 | 1件のコメント | WhatsAppで共有

ローカルLLMがクエリの難易度に合わせて推論トークンを調整し、同じ資源でより効率的な回答を生成できるようにする手法
すべてのクエリに同じ「思考時間」を与える代わりに、HIGH/LOW複雑度に分け、複雑な推論には70〜90%、単純なクエリには20〜40%のトークンを割り当てる
Microsoft Phi-4論文のPivotal Token Searchベースのステアリングベクトルにより、数値的正確性、自己修正、徹底的な探索といった推論パターンを誘導する
DeepSeek-R1-Distill-Qwen-1.5Bでは、GPQA-Diamondがベースラインの21.72%に対して31.06%まで向上し、相対43%改善したほか、MMLU-Proも25.58%から26.38%に上昇
DeepSeek、Qwen、カスタムファインチューニングモデルなどのローカル推論モデルで動作し、API依存なしでベースライン手法より少ないトークンを使用する

クエリごとの推論資源の調整

AutoThinkは、ローカルLLMの推論資源をクエリごとに異なる形で配分する適応型資源割り当て手法
まずクエリをHIGHまたはLOWの複雑度に分類し、その複雑度に応じて推論トークン比率を調整する
- 複雑な推論: 全トークンの70〜90%
- 単純なクエリ: 全トークンの20〜40%
ステアリングベクトルはPivotal Token Searchから派生し、生成中のモデルの推論方向を導く
- 誘導する挙動には数値的正確性、自己修正、徹底的な探索が含まれる
実装は2つの軸で構成される
- 再学習なしで新しい複雑度カテゴリーを学習できる適応型分類フレームワーク
- Pivotal Token Searchのオープンソース実装

ベンチマーク結果と適用範囲

DeepSeek-R1-Distill-Qwen-1.5Bで次の結果を示した
- GPQA-Diamond: 31.06%、ベースライン21.72%比で相対43%改善
- MMLU-Pro: 26.38%、ベースライン25.58%から上昇
- ベースライン手法より少ないトークンを使用
AutoThinkはローカル推論モデル全般に適用可能
- 例: DeepSeek、Qwen、カスタムファインチューニングモデル
- API依存性なし
関連資料

1件のコメント

GN⁺ 2025-05-29

Hacker Newsのコメント

AutoThink の動機は、既存の推論モデルが計算資源を無駄にしているのを見たことにあると述べている。2+2は？ のような非常に簡単な質問にも、複雑な数学的証明と同じだけの「思考時間」を消費しており、その非効率さが明らかだったという。興味深いのは、別途実験していた適応型分類（再学習なしで新しいカテゴリを学習可能）と、Microsoft の Phi-4 論文でオープンソース化された Pivotal Token Search の2つを組み合わせ、さらに動的なトークン予算配分を適用したところ、予想をはるかに上回る性能向上が得られた点だ。実際、平均使用トークン数は減少しており、簡単なクエリは実際にかなり速く終わらせ、複雑なクエリにだけ追加計算を割り当てた効果だという。技術的なポイントとしては、steering vector はパターンごとに 1MB 未満と小さく、メモリオーバーヘッドはほぼなく、分類プロセスが追加する遅延も約 10ms と無視できるレベルであり、さらに target layer の選択が重要で、多くのモデルでは中間層の 15〜20 層目が最良の結果を示したという。フィードバックが欲しい点としては、似た適応型アプローチの経験、より有用に steer できる reasoning パターン、最適な target layer の自動検出に関するアイデアを挙げている。実装や結果についての質問は何でも歓迎とのこと
- 今では必ずしもそうでもない。Gemini 2.5 Pro を使ったことがあるかと問いかけていて、簡単な質問にはほとんど「考えず」、コーディング関連の質問には長い論理的な記事のような回答を書くという。o3 も同様のようだ
- おめでとう！ LLM の効率化に関するあらゆる試みは大歓迎だ。これまでは Mac Mini M4 で MLX モデルに簡単なクエリだけを処理させ、複雑なクエリは Nvidia 4090 に送るという形で雑に最適化してきたが、M4 の効率性は Nvidia と比べても本当に驚くほどだ。Apple が MLX に進んでいるのは正しい方向だと思う。AutoThink についてもっと読んで、自分のワークフローにも統合してみるつもりだ
- ユーザープロンプトの後ろに「non-reasoning model の回答」を挿入する方式、たとえば「以下は non-reasoning model が考えた内容です: ... これはユーザーが望んでいる結果ですか？」を試してみる価値があると思う。非推論版で十分な場合には、reasoning model もより速く結論を出せる利点があるかもしれない
- Claude Sonnet 3.5 でさえ（最新の 3.7 や 4 ではなくても）、クエリの複雑さに応じて処理時間が明確に変わる。動的に処理時間を調整している様子が確認できる
質問をどうやって「複雑な質問」と「簡単な質問」に分類できるのか気になる。見た目は簡単な質問でも、実際には非常に難しいことがある。たとえば x³+y³+z³=42 の整数解は、100年以上分の計算資源を要した問題だ。また、x/(y+z)+y/(z+x)+z/(x+y)=4 のような式も見た目には単純だが、楕円曲線理論を必要とする億単位の非常に大きな解が存在する。解法への参照リンク
- 問題の難易度を分類すること自体が、それだけで別の技術だ。実際に解くこととは別に学習できる能力でもある。たとえば上の式を見たとき、すぐに3つの難しさ（整数範囲、3変数、3次方程式）に気づく必要がある。この3要素が重なると難易度は急上昇する。実数や複素数、変数の数が少ない場合や次数が低い場合は、はるかに解きやすい。もちろん、それでも必ず難しいとは限らないが、未解決問題である可能性はある。自分には実際に解く力はないが、どこで情報を探すべきかの勘を鍛えてきたので、「これはとても難しい」とすぐ察することはできる。LLM もこうしたヒントを学習し、実際の解法なしに問題の難易度を分類する能力を身につけられるのではないかと思う（あるいはすでに学んでいるかもしれない）
- この文脈でのクエリ難易度は、正解データセット（GSM8k など）において、モデルが正しい応答を出すためにどれだけのトークンを消費したかに基づいて定義している。適応型分類器はこのデータセットで学習し、推論段階での分類に利用される
Claude 3.7 で extended thinking トグルが出たとき、私も似たような autothink の POC を作った。名前まで autothink だ
github.com/NiloCK/autothink
think-toggles-are-dumb ブログ
私のバージョンは、LLM がクエリ難易度を 0〜100 のスコアで採点する1次パスを通し、そのスコアに応じて思考予算を線形に割り当てる仕組みだ。OP の作業に比べればもちろん単純だが、定量的な結果が見られて本当にうれしい。よくできた成果だ！
当然の最適化だと思うし、こうした変化がすでに起きていなかったのが不思議なくらいだ。わかりやすく説明し、実際に実装した点が印象的だ
QwQ や Qwen 3 のような reasoning モデルでは、正直なところ結果改善にあまり時間は使わず、さまざまなプロンプトで reasoning token の出力を制約する試みだけをしていた。Gemma 3 27B QAT は reasoning モデルではないが、LLM チェーンやルートで使う際の指示追従性能が非常に高く、事前分類や言語最適化に投入し、その後の段階で実際の reasoning に使える。複数の thinking tag の間に中間回答を交互に出力させることも可能だ。この種のモデル実験では、「思考中のトークン」は結論とは別に、問題解決の各段階における足がかりとなるすべてのトークンとして定義している。一部のトークンや特定の表現を優先的に使うよう指示すると、一般的には結果が改善する経験があり、AutoThink がデータセット上で最も性能の良いトークンを自動で使う方式は、より汎用的で効果的な最適化として機能しそうだ。ただし pivot token を使いすぎるとベンチマーク問題への過学習リスクがあるため、この方法がどこまで一般化するかはもう少し見守りたい。個人的には、慎重な語句・トークン選択は低コスト高効率で結果品質を大きく改善する最適化だと見ており、AutoThink の一般化能力に期待している
小型モデルのおかげで、小さなチームや個人研究者でも、従来の大規模 AI ラボに引けを取らない革新的なアプローチや実験を容易に実証できるようになったのが本当にすばらしい。SML (Small Language Model) の競争力が高まるほど、オンデバイスで実現できることは想像以上に広がる
- "small language models (SML)" ではなく、SLM が正しい呼び方だと思う
他人のためにモデルをホスティングしているなら、非常に単純な質問の処理で計算資源を節約するのもよい。この場合、モデルが簡単に判断できる質問をおろそかにする欠点はあるかもしれないが、そのコストを負担するのは自分ではない。逆に、自分の PC で直接モデルを使う場合は、すでに GPU に大きなコストを投じている以上、できるだけ資源を活用したい。簡単なクエリまで計算を減らすのは、むしろ望ましくない
考えさせられる話だ！私たちも AI クローラー設計において、訪問先サイトごとにより多くのクエリを投げるべきか、少なくすべきかを動的に認識する必要があると社内で議論する予定だ。ちなみに私たちは samaritanscout.org で、さまざまな非営利サイトに掲載された地域のボランティア機会を一か所に集約する検索エンジンプロジェクトをやっている
LLM と AI の分野にごく最近入ったばかりだが、このプロジェクトには深く興味を引かれる。AutoThink が、問題の難易度に応じて AI が「より賢く考える」ように計算努力を調整するという点は、直感的にとても印象的だ。人が 2+2 のようなものはすぐ解き、難しい問題だけ真剣に考えるのにたとえられる。トークン予算や steering vector などの技術的要素はよくわからないが、それでも同時により速く、より賢くなれるこの方法に魅了される。今後も追っていくつもりだ
LLM では「思考」や「推論」という用語は使わない方がよいと思う。どちらの語にも特定の意味や哲学的背景がある一方で、実際のところ LLM はそのように思考したり推論したりしているわけではなく、単により多くの計算（プロセッサ時間）を費やして結果を生成する計算方式に近いからだ
- その船はもう出てしまった。昔は “computer” という語も人間の計算係を意味していたが、今では完全に機械を指すようになった。それと同じで、ここでも用語の意味が変化したということだ
- 「ping」にたとえられる。IP アドレスに “ping” するといっても、実際に金属船体へ音波を打ち込んでいるわけではないが、実際の動作に合わせた比喩として使われている。便利なメタファーであれば、現実と 1 対 1 で一致していなくても日常的に使われる
- 私の世界観は、原理的には唯物論者であり決定論的だ。それでも日常生活では実存主義や多少のスピリチュアルな感受性も持ち込んでいる。実用的な観点では、こうしたツールに擬人的な属性を一時的に与えると、会話の流れがスムーズになり、道具を直感的に把握しやすくなる。この方法はときに限界を見せるが、そういうときはより分析的な枠組みに簡単に切り替えられると思う

AutoThink: 適応型推論でローカルLLMの性能を向上

クエリごとの推論資源の調整

ベンチマーク結果と適用範囲

関連記事

1件のコメント

Hacker Newsのコメント