- 9か月前、AIが実際に人間を代替できるほどコードのセキュリティ分析をうまく実行できると判断し、スタートアップを立ち上げた
- 当初はGPT-4oからClaude 3.5 Sonnetに切り替えると、脆弱性の説明と深刻度の判断において質的に大きな向上があった
- しかしその後、Claude 3.6、3.7を含むほとんどのモデルは、内部ベンチマークでもバグ検出能力でも実質的な改善を示さなかった
- 性能向上の大半は、AIモデル自体ではなく一般的なエンジニアリング改善によるものだった
- 他のスタートアップも似た経験をしており、多くは新モデル発表 → ベンチマークでは好成績 → 実際の性能はわずかというサイクルを経験している
- 筆者は、現在のAIモデルの進歩は経済的有用性や汎化能力の面で意味のある水準ではないと考えている
AIベンチマークと実際の性能の乖離
- AIモデルは試験では良い成績を取るが、実際の業務能力にはほとんど反映されない
- ベンチマークは主に短く孤立した問題に集中しており、実際の応用には不向きである
- 例としてClaudeモデルは、Pokémonのゲームをクリアできないほど長期記憶の維持が苦手である
- 「Humanity’s Last Exam」のようなベンチマークは一見重要そうに見えるが、実際の有用性を適切に評価できていない
- 筆者は今後、AIの性能を判断する際には、Claude Plays Pokemonのような実使用ベースのベンチマークだけを信頼するつもりだ
AI研究所の信頼性の問題
- AI研究所は文明規模の競争の中にあり、一部には性能を誇張したり、都合のよい結果だけを選んで公開したりする動機がある
- 実際にOpenAIやAnthropicなどが使うベンチマークの多くは公開テストセットベースであり、操作の余地がある
- ARC-AGIのような半非公開の評価を除けば、ほぼすべての結果が訓練済みデータセットに基づいている可能性がある
- 最も楽観的な解釈は、問題が技術的限界ではなく人間の不正行為にあるという点である
ベンチマークが実際の有用性を反映できない構造的理由
- 人間のIQテストはさまざまな現実の成果と相関を持つが、AIベンチマークはそうではない
- AIベンチマークの多くは独立したパズルや短期的な問題解決中心で構成されている
- AIは、実際の問題で求められる記憶、状況認識、目標追跡などに非常に弱い
- ベンチマークは開発や評価には便利だが、現実における総合的な能力とは関連性が低い
AIモデルは賢いが、アラインメントの問題で性能が制限されている可能性
- 筆者の会社は実際のコードのセキュリティ点検にAIを使っているが、モデルは作業コンテキストをうまく理解できない
- モデルは、実サービスに影響する問題だけを報告せよという指示に従えず、不要な警告を頻繁に出力する
- これは、モデルが「賢く見える」反応を好むように訓練されているためである
- 対話用途なら問題ないが、システムに組み込んで使おうとするとエラーが蓄積し、問題につながる
- 表面的な症状だけを修正しようとする試みは長期的に危険であり、根本的なアラインメント問題の解決が必要だ
締めくくりの考えと社会的含意
- 現在のAIは誇張された期待に比べて実際の性能が低く、これは多くのユーザーの「実感」と一致している
- アラインされていないAIシステムが社会全体に影響を及ぼす前に、より根本的な理解と設計が必要である
- 単純な結果中心のベンチマークよりも、実際の利用シナリオを反映した定性的評価が重要である
5件のコメント
同感です。PerplexityでClaude 3.7モデルを便利に使っていますが、最近はGemini 2.5も使っていて、本当に性能が高いと実感しながら使っています。
最近は、なぜこんなにも経済紙みたいなニュースしか上がってこないんだろう
私はすごくいいと思うけど…
最近はこの程度のタイトルを書かないと釣れないみたいですね。
Hacker Newsの意見
母が、ポール・ニューマンにはアルコール問題があったと言っていた。ChatGPTに尋ねると、ポール・ニューマンはアルコール問題で特に知られているわけではないと答えた
最近のUSAMOでは、SOTAモデルの平均スコアは5%だった。これは、AIモデルが実際に問題を解いているのではなく、過去の結果を記憶していることを示唆している
LLMは何かを報告しようとする傾向があり、誇張しがちである
この記事への反応を読むのは興味深い。私たちの集団的な反応が非常に多様で、逸話に基づいていることを示している
個人的な経験は筆者の意見と一致している
ベンチマーク結果の改善と実際の作業における改善不足は、LLMの本質を反映している
週末にgemini 2.5を使ったが、非常に優秀だった
たとえLLMの開発が今止まったとしても、今後10年間は新しい用途が見つかり続けるだろう
LLMとコーディング支援プラグインを使っている者として、GPT/Claudeはこの12か月で悪化したと感じる