- この5年間、各社は 2Kから2Mまで 競うようにコンテキストウィンドウのサイズを拡大してきた
- しかし多くの人が、モデルに表記されているコンテキストウィンドウの大きさと実際に活用可能な大きさは異なると指摘
- Gemini 2.5 Pro、GPT-5、Claude、Qwen、Llama など主要モデルの実性能を比較すると、宣伝文句とはかなり異なるという体験談が多数ある
- 「大規模コンテキストには意味があるが、実際にまともに動くのは4–8k付近だけ」という懐疑的な見方と、「数十万トークンまで実用可能」という肯定的な体験談が対立している
主な論点
-
1. 実際に活用可能なコンテキストサイズ
- 実運用のタイムラインは 1k→2k→4k→8k→8k→8k→32k→40k、ただし Gemini 2.5 Pro だけは 80k まで可能
- いまだに実質的な使用範囲は 4–8k にとどまる
- 「ラベル上のサイズは無意味で、使えるコンテキスト長こそ重要」
- 公称サイズと実際に使えるサイズの乖離は認められている
-
2. Gemini の性能
- Gemini 2.5 Pro は 250k までは安定、500k も使用可能、800k では応答は返るが精度は低下
- 200k までは劣化が非常に緩やかで、その後も Gemini が最も優れている
- Gemini は RoPE 拡張ではなく、シーケンスシャーディング など独自アーキテクチャを採用し、一部レイヤーでは全トークンに対して密なアテンションを行う
-
3. GPT-5 の評価
- GPT-5-thinking は 200k 以上でもよく動作する
- 100k までは非常に精密だが、Gemini より早く性能が低下する
-
4. Claude の評価
- Claude は大きな文脈を維持するのが苦手という意見でおおむね一致
- 細部情報、出来事の順序、メソッド名などを誤って記憶したり、ハルシネーションが発生したりする
- Claude Sonnet 4 は 4k ですらメモリに問題があり、Qwen 32b より劣る
- 「Claude は本当にひどいので、Qwen に乗り換えた」
-
5. Qwen、Mistral、Gemma など
- Mistral Large、Gemma3 27B は 32k では悪くなさそう
- Gemma3 は最悪レベルで、Fiction.live ベンチマークの参照が推奨される
-
6. Llama シリーズ
- Llama 4 Scout は 1000万トークン対応を主張
- 実際に活用できる範囲はそれよりかなり小さい。0.5M コンテキストのテストでは最後の文書だけを要約し、大規模コードベースにも不向き
-
7. モデル別の細かな体験
- 「一貫性(coherence) ≠ 実際の使いやすさ」であり、Gemini 2.5 Pro でも 10–20k の小説要約では文脈追跡に苦労する
- Gemini 1.5 Pro は他の面では弱いが、長文脈の解釈は 2.5 Pro より良いと評価される
- エージェント型コーディングツールではシステムプロンプトが 20k を超えるため、4–8k しか使えないという主張は誤り。ただし初期コンテキストが最も安定している
その他
- ツール/リソース共有:
- アニメーション制作ツール: Remotion
- 性能劣化関連資料: LoCoDiff-bench
結論
- 共通認識: モデルごとに「公式スペック」と「実運用での性能」には大きな差がある
- Gemini: 総じて最も安定しており、大規模コンテキストでも強力との評価
- GPT-5: 中規模までは優秀だが、性能低下の始まる時点は Gemini より早い
- Claude: 長文コンテキスト活用では最も低い評価
- Llama/Gemma: 対応スペックに比べて実用性は不十分
3件のコメント
実のところ、ベンチマークで言われるような圧倒的な差はあまり感じませんでした。
体感としては、ただ「少し良い」くらいのレベルで、そこまで大きく違うわけではないんですよね。
むしろモデル全体の性能が底上げされてきたぶん、人々がより厳しく比較している感じもあります(笑)。
結局のところ重要なのは、どんな状況で使うかによって変わると思います。
Geminiはコンテキストウィンドウがとても大きいので、大規模なコードベースや長い文脈の維持に向いていそうですし、Claudeは安定したコーディング精度が強みなので、用途に合わせて選べばいいと思います。
AIベンチマークの数値ではなく、実際の使用体験でコーディング性能がClaudeより優れているモデルはありますか?
Claudeは長いコンテキストでは弱点もありますが、コーディングは一番うまい気がします。