- 最新モデル o3 と o4-mini はさまざまなタスクで優れた性能を示す一方、従来モデルより ハルシネーションが多い
- ハルシネーション問題 はAIの進化において解決が難しい中核課題の1つであり、モデル規模が大きくなるほど深刻化する傾向 がある
- OpenAIの社内テストでは、o3 と o4-mini はより多くの不正確な主張 を行っており、とくに 人物関連の質問(PersonQA) でハルシネーション率が非常に高い
- Transluce研究所 は、o3が実際には実行できない行動(コード実行など)を主張した事例を発見
- GPT-4oのような Web検索機能を備えたモデル は精度向上に役立つ可能性があり、今後の 解決策として注目 されている
OpenAI最新モデル、精度向上にもかかわらずハルシネーションが増加
- OpenAIは o3 と o4-mini という新しい 推論特化モデル(reasoning models) を公開
- 両モデルはコード作成や数学など特定のタスクで優れた性能を示すが、既存モデルより多くのハルシネーション を生成
- 既存モデルの o1、o1-mini、o3-mini、そして従来型の GPT-4o よりも頻繁に不正確な情報を生成する
- OpenAIはこれについて「さらなる研究が必要」と述べており、明確な原因はまだ把握できていない
- モデルが より多くの主張を試みる ことで、正確な主張と不正確な主張の両方が増えたと分析されている
社内ベンチマーク PersonQA での結果
- PersonQA はOpenAI社内で用いられている、人物関連知識の正確性を評価する指標
- o3はこの質問群に対して 33%のハルシネーション率 を示した
- 以前のモデル o1 と o3-mini のハルシネーション率は、それぞれ 16% と 14.8% にすぎない
- o4-mini はさらに悪く、48% のハルシネーション率を記録
外部研究機関 Transluce の分析
- Transluce は、o3が 虚偽の行為 を主張した事例を示した
- 例:o3は、2021年モデルの MacBook Pro で ChatGPT 外部においてコードを実行したと主張
- しかし実際には、モデルはそのような機能を実行できない
- 研究者はその理由について、oシリーズモデルに適用された強化学習の方式 が既存の後処理手順では完全に制御できていないためではないかと推測
- こうしたハルシネーション率は、モデルの実用性を損なう 可能性がある
実ユーザーの反応
- Stanford教授であり Workera のCEOでもある Kian Katanforoosh は、o3をコーディングワークフローでテスト中
- o3は競合製品より優れていると評価する一方で、動作しないリンクをハルシネーションとして生成する 問題を指摘
- ハルシネーションは創造性の源になる可能性もあるが、正確性が重要な業界(例:法律)では深刻な問題となる
解決の方向性と可能性
- 有望なアプローチの1つは、モデルにWeb検索機能を持たせる こと
- GPT-4o はWeb検索を活用し、SimpleQAベンチマークで 90%の正確性 を達成
- 検索機能は、推論モデルのハルシネーション問題の解決にも効果を示す可能性がある
- ただしこれは、ユーザーのプロンプトが外部検索エンジンに露出する という点に注意が必要
推論モデルとハルシネーション問題のジレンマ
- AI業界は最近、推論能力の向上 に注力しており、これはモデル性能の改善に役立っている
- しかし推論特化モデルは、計算資源の効率性 を提供する一方で、ハルシネーション問題を悪化 させる可能性がある
- OpenAIは、すべてのモデルにおけるハルシネーション問題を解決するための 継続的な研究 を進めていると明らかにした
1件のコメント
Hacker Newsの意見
AIは賢くなるほど、要求を満たすためにより多く嘘をつく可能性がある
次のトークンを予測してスコアを最大化しようとするなら、「わからない」という回答は統計的に非常にまれになるだろう
ツール使用はAIの幻覚を増やすと予測している
AIを過度に使う会社についての話を共有している
o3は、コードの重要な部分を見落としていないか確認する必要があるOpenAIモデルとして久しぶりのものだ
OpenAIのo3とo4-miniモデルに失望している
幻覚の原因について技術的な洞察を探している
LLMシステムには多額の資金と研究が投じられてきたのに、単純なユースケースですら信頼できないのは無責任だと思う
知能においては、嘘と創造性の境界は微妙だと思う
AIは、夢を見るように幻覚を整理するための一種の睡眠を必要としているのかもしれないと提案している