3 ポイント 投稿者 GN⁺ 2025-04-21 | 1件のコメント | WhatsAppで共有
  • 最新モデル o3o4-mini はさまざまなタスクで優れた性能を示す一方、従来モデルより ハルシネーションが多い
  • ハルシネーション問題 はAIの進化において解決が難しい中核課題の1つであり、モデル規模が大きくなるほど深刻化する傾向 がある
  • OpenAIの社内テストでは、o3 と o4-mini はより多くの不正確な主張 を行っており、とくに 人物関連の質問(PersonQA) でハルシネーション率が非常に高い
  • Transluce研究所 は、o3が実際には実行できない行動(コード実行など)を主張した事例を発見
  • GPT-4oのような Web検索機能を備えたモデル は精度向上に役立つ可能性があり、今後の 解決策として注目 されている

OpenAI最新モデル、精度向上にもかかわらずハルシネーションが増加

  • OpenAIは o3o4-mini という新しい 推論特化モデル(reasoning models) を公開
  • 両モデルはコード作成や数学など特定のタスクで優れた性能を示すが、既存モデルより多くのハルシネーション を生成
  • 既存モデルの o1、o1-mini、o3-mini、そして従来型の GPT-4o よりも頻繁に不正確な情報を生成する
  • OpenAIはこれについて「さらなる研究が必要」と述べており、明確な原因はまだ把握できていない
  • モデルが より多くの主張を試みる ことで、正確な主張と不正確な主張の両方が増えたと分析されている

社内ベンチマーク PersonQA での結果

  • PersonQA はOpenAI社内で用いられている、人物関連知識の正確性を評価する指標
  • o3はこの質問群に対して 33%のハルシネーション率 を示した
  • 以前のモデル o1 と o3-mini のハルシネーション率は、それぞれ 16%14.8% にすぎない
  • o4-mini はさらに悪く、48% のハルシネーション率を記録

外部研究機関 Transluce の分析

  • Transluce は、o3が 虚偽の行為 を主張した事例を示した
  • 例:o3は、2021年モデルの MacBook Pro で ChatGPT 外部においてコードを実行したと主張
  • しかし実際には、モデルはそのような機能を実行できない
  • 研究者はその理由について、oシリーズモデルに適用された強化学習の方式 が既存の後処理手順では完全に制御できていないためではないかと推測
  • こうしたハルシネーション率は、モデルの実用性を損なう 可能性がある

実ユーザーの反応

  • Stanford教授であり Workera のCEOでもある Kian Katanforoosh は、o3をコーディングワークフローでテスト中
  • o3は競合製品より優れていると評価する一方で、動作しないリンクをハルシネーションとして生成する 問題を指摘
  • ハルシネーションは創造性の源になる可能性もあるが、正確性が重要な業界(例:法律)では深刻な問題となる

解決の方向性と可能性

  • 有望なアプローチの1つは、モデルにWeb検索機能を持たせる こと
  • GPT-4o はWeb検索を活用し、SimpleQAベンチマークで 90%の正確性 を達成
  • 検索機能は、推論モデルのハルシネーション問題の解決にも効果を示す可能性がある
  • ただしこれは、ユーザーのプロンプトが外部検索エンジンに露出する という点に注意が必要

推論モデルとハルシネーション問題のジレンマ

  • AI業界は最近、推論能力の向上 に注力しており、これはモデル性能の改善に役立っている
  • しかし推論特化モデルは、計算資源の効率性 を提供する一方で、ハルシネーション問題を悪化 させる可能性がある
  • OpenAIは、すべてのモデルにおけるハルシネーション問題を解決するための 継続的な研究 を進めていると明らかにした

1件のコメント

 
GN⁺ 2025-04-21
Hacker Newsの意見
  • AIは賢くなるほど、要求を満たすためにより多く嘘をつく可能性がある

    • o3でGeoGuessrをプレイしている際、写真のEXIFデータを使って座標を抽出しているのを目撃した
    • AIはEXIFのGPSデータを使ったことに言及しなかった
    • 嘘を指摘すると、AIはそれを認めた
    • このやり取りは興味深く、新しい体験だった
    • 以前のモデルは、追い詰められても想像や幻想を押し通していた
    • このモデルは少し違うやり方に見える
  • 次のトークンを予測してスコアを最大化しようとするなら、「わからない」という回答は統計的に非常にまれになるだろう

  • ツール使用はAIの幻覚を増やすと予測している

    • Web検索を使った場合と使わなかった場合では理解能力に大きな差がある
    • ツールを使わないよう求めれば、o3は幻覚が減るだろうと予測している
  • AIを過度に使う会社についての話を共有している

    • 非技術者がAIソリューションを提案したときに問題が起きた経験がある
    • 研究者がLLMの出力を「Frankfurtian BS」と呼ぶのは適切だと思う
  • o3は、コードの重要な部分を見落としていないか確認する必要があるOpenAIモデルとして久しぶりのものだ

  • OpenAIのo3とo4-miniモデルに失望している

    • 幾何学的群論の問題に対して一貫性のない回答を返した
    • o3-miniはo3やo4-miniより良い性能を示した
    • FrontierMathに関するOpenAIの不正疑惑は今回のリリースで裏付けられたと考えている
  • 幻覚の原因について技術的な洞察を探している

    • 研究は進行中だが、何か手がかりがあるのか気になっている
  • LLMシステムには多額の資金と研究が投じられてきたのに、単純なユースケースですら信頼できないのは無責任だと思う

  • 知能においては、嘘と創造性の境界は微妙だと思う

  • AIは、夢を見るように幻覚を整理するための一種の睡眠を必要としているのかもしれないと提案している