最近のAIモデルの進歩は、ほとんどでたらめに感じられる

(lesswrong.com)

6 ポイント投稿者 GN⁺ 2025-04-07 | 5件のコメント | WhatsAppで共有

9か月前、AIが実際に人間を代替できるほどコードのセキュリティ分析をうまく実行できると判断し、スタートアップを立ち上げた
当初はGPT-4oからClaude 3.5 Sonnetに切り替えると、脆弱性の説明と深刻度の判断において質的に大きな向上があった
しかしその後、Claude 3.6、3.7を含むほとんどのモデルは、内部ベンチマークでもバグ検出能力でも実質的な改善を示さなかった
性能向上の大半は、AIモデル自体ではなく一般的なエンジニアリング改善によるものだった
他のスタートアップも似た経験をしており、多くは新モデル発表 → ベンチマークでは好成績 → 実際の性能はわずかというサイクルを経験している
筆者は、現在のAIモデルの進歩は経済的有用性や汎化能力の面で意味のある水準ではないと考えている

AIベンチマークと実際の性能の乖離

AIモデルは試験では良い成績を取るが、実際の業務能力にはほとんど反映されない
ベンチマークは主に短く孤立した問題に集中しており、実際の応用には不向きである
例としてClaudeモデルは、Pokémonのゲームをクリアできないほど長期記憶の維持が苦手である
「Humanity’s Last Exam」のようなベンチマークは一見重要そうに見えるが、実際の有用性を適切に評価できていない
筆者は今後、AIの性能を判断する際には、Claude Plays Pokemonのような実使用ベースのベンチマークだけを信頼するつもりだ

AI研究所の信頼性の問題

AI研究所は文明規模の競争の中にあり、一部には性能を誇張したり、都合のよい結果だけを選んで公開したりする動機がある
実際にOpenAIやAnthropicなどが使うベンチマークの多くは公開テストセットベースであり、操作の余地がある
ARC-AGIのような半非公開の評価を除けば、ほぼすべての結果が訓練済みデータセットに基づいている可能性がある
最も楽観的な解釈は、問題が技術的限界ではなく人間の不正行為にあるという点である

ベンチマークが実際の有用性を反映できない構造的理由

人間のIQテストはさまざまな現実の成果と相関を持つが、AIベンチマークはそうではない
AIベンチマークの多くは独立したパズルや短期的な問題解決中心で構成されている
AIは、実際の問題で求められる記憶、状況認識、目標追跡などに非常に弱い
ベンチマークは開発や評価には便利だが、現実における総合的な能力とは関連性が低い

AIモデルは賢いが、アラインメントの問題で性能が制限されている可能性

筆者の会社は実際のコードのセキュリティ点検にAIを使っているが、モデルは作業コンテキストをうまく理解できない
モデルは、実サービスに影響する問題だけを報告せよという指示に従えず、不要な警告を頻繁に出力する
これは、モデルが「賢く見える」反応を好むように訓練されているためである
対話用途なら問題ないが、システムに組み込んで使おうとするとエラーが蓄積し、問題につながる
表面的な症状だけを修正しようとする試みは長期的に危険であり、根本的なアラインメント問題の解決が必要だ

締めくくりの考えと社会的含意

現在のAIは誇張された期待に比べて実際の性能が低く、これは多くのユーザーの「実感」と一致している
アラインされていないAIシステムが社会全体に影響を及ぼす前に、より根本的な理解と設計が必要である
単純な結果中心のベンチマークよりも、実際の利用シナリオを反映した定性的評価が重要である

5件のコメント

ifmkl 2025-04-08

同感です。PerplexityでClaude 3.7モデルを便利に使っていますが、最近はGemini 2.5も使っていて、本当に性能が高いと実感しながら使っています。

say8425 2025-04-07

最近は、なぜこんなにも経済紙みたいなニュースしか上がってこないんだろう

sjisrich 2025-04-07

私はすごくいいと思うけど…

kandk 2025-04-07

最近はこの程度のタイトルを書かないと釣れないみたいですね。

GN⁺ 2025-04-07

Hacker Newsの意見

母が、ポール・ニューマンにはアルコール問題があったと言っていた。ChatGPTに尋ねると、ポール・ニューマンはアルコール問題で特に知られているわけではないと答えた
- ChatGPTは、彼の俳優としての経歴、慈善活動、そして自動車レースへの情熱のほうがより注目されていたと説明した
- しかし、オンライン上には彼のアルコール問題に関する証拠が多くあり、妻ジョアン・ウッドワードの証言も含まれている
- 母にChatGPTの返答を送ると、母は5分で権威ある情報源を見つけてきた
- ChatGPTを毎日使っているが、こんな単純なことを間違える可能性があるのが理解できなかった
- 母の映画知識に疑いを差し挟むべきではないという教訓を得た
最近のUSAMOでは、SOTAモデルの平均スコアは5%だった。これは、AIモデルが実際に問題を解いているのではなく、過去の結果を記憶していることを示唆している
- このような結果にもかかわらず、企業は訓練データからテストデータを除去するための取り組みを公開していない
LLMは何かを報告しようとする傾向があり、誇張しがちである
- 質問に対して「はい」と答える傾向がある
- LLMの競争によってベンチマークスコアは徐々に上がっているが、こうした改善は見かけ倒しである
- LLMには同意しようとする傾向があり、これは改善されていない
- エージェントのシナリオでモデルを評価することが重要である
この記事への反応を読むのは興味深い。私たちの集団的な反応が非常に多様で、逸話に基づいていることを示している
- 正しい人もいれば間違っている人もいるだろうし、AIについて「より良い選択」をできる能力を示す特徴が何なのか気になる
個人的な経験は筆者の意見と一致している
- LLMはユーザーとの対話で「賢そうに聞こえる」ように訓練されており、問題を強調する傾向がある
- これはほとんどの状況における言語の目的と一致しており、LLMは言語で訓練されている
ベンチマーク結果の改善と実際の作業における改善不足は、LLMの本質を反映している
- LLMは予測システムであり、特定のドメインで訓練すればそのドメインでの性能は向上する
- 高度な数学を訓練したからといって、プログラミング能力が向上すると期待することはない
週末にgemini 2.5を使ったが、非常に優秀だった
- 用途次第であり、LLMがどこへ向かうのかはまだ確信が持てない
たとえLLMの開発が今止まったとしても、今後10年間は新しい用途が見つかり続けるだろう
- 技術の進歩があまりにも速く、その結果が恐ろしい
- 収益逓減点に達してほしいが、そうなるとは思っていない
LLMとコーディング支援プラグインを使っている者として、GPT/Claudeはこの12か月で悪化したと感じる
- モデルは「十分に良い」と考えており、今後はツールやアプリケーション側での改善を見る必要があると思う
- MCPは正しい方向に進む良い一歩だと思うが、全体としては懐疑的である