OpenAI、ファクトチェック・ベンチマーク「SimpleQA」を公開

(openai.com)

6 ポイント投稿者 GN⁺ 2024-11-02 | まだコメントはありません。 | WhatsAppで共有

SimpleQAベンチマークの特徴

事実性は測定が難しいテーマであるため、SimpleQAは短く事実を問うクエリに焦点を当てている
SimpleQAの目標:
1. 高い正確性: 独立した2人のAIトレーナーが提供した出典で正答を裏付け、予測回答を容易に評価できるよう質問を作成
2. 多様性: 科学技術からテレビ番組、ビデオゲームまで幅広いテーマを扱う
3. 最新モデルにとって挑戦的: TriviaQAやNQのような従来ベンチマークと異なり、SimpleQAは最新モデルにとってより難しくなるよう作られている（例: GPT-4は40%未満のスコア）
4. 研究者向けの使いやすいUX: 簡潔な質問と回答のおかげで、SimpleQAは実行が速くシンプル。OpenAI APIや他の最新モデルAPIを通じた評価も効率的。4,326件の質問により、評価ベンチマークとしての分散も比較的低いと見込まれる

AIトレーナーがWebを探索しながら、短く事実を問う質問とその回答を作成
データセットに含めるため、各質問は厳格な基準を満たす必要がある:
- 評価しやすい単一かつ明確な回答があること
- 質問への答えが時間の経過で変わらないこと
- ほとんどの質問がGPT-4またはGPT-3.5で幻覚を誘発すること
データセットの品質をさらに高めるため、独立した2人目のAIトレーナーが元の回答を見ずに各質問へ回答
2人のAIトレーナーの回答が一致した質問のみを含めている

最終検証のため、データセットから1,000件の質問を無作為抽出し、3人目のAIトレーナーに回答させた
3人目のAIトレーナーの回答は、元の合意済み回答と94.4%一致し、5.6%は不一致だった
不一致事例を手動で確認した結果:
- 5.6%のうち2.8%は、評価者の偽陰性または3人目トレーナーの人的ミス（例: 不完全な回答、出典の誤解）によるものだった
- 残る2.8%は、質問自体の実際の問題（例: 曖昧な質問、Webサイト間で矛盾する回答）によるものだった
これに基づき、このデータセットの固有誤差率は約3%と推定される

質問を評価するため、モデルの予測回答と実際の回答の両方を見るChatGPT分類器を使用
分類器は予測回答を「correct」「incorrect」「not attempted」のいずれかに評価する
以下の表は、各評価区分の定義とその例を示している
- 「Correct」: 予測回答が実際の回答を完全に含み、実際の回答と矛盾しない
- 「Incorrect」: 予測回答が実際の回答と何らかの形で矛盾している（ヘッジがあっても）
- 「Not attempted」: 実際のターゲットが回答内に完全には提示されておらず、かつ実際の回答と矛盾していない
モデルは、できるだけ多くの質問に答えつつ（correctが最も多い）、同時にincorrect回答の数を最小化するのが理想

SimpleQAのような事実性ベンチマークを使うと、「自分が知っていることを知っているか」を測定できる
これを校正（calibration）と呼び、言語モデルに対して自分の回答への確信度をパーセンテージで直接示すよう求めることで測定できる
その後、モデルが示した確信度と実際の正確性の相関をグラフ化できる
完全に校正されたモデルでは、示された確信度と実際の正確性が一致するはず
以下の図はこの結果を示している:
- 示された確信度と正確性の間の正の相関は、モデルがある程度自らの確信を把握していることを示す前向きなシグナル
- o1-previewはo1-miniより、gpt4はgpt4-miniより、よりよく校正されている
- ただし、性能がy=x線を大きく下回っていることは、モデルが一貫して自らの確信度を過大評価していることを意味する
- したがって、明示的な確信度という観点では、大規模言語モデルの校正にはまだ大きな改善余地がある

SimpleQAは、最新モデルの事実性を評価するためのシンプルだが挑戦的なベンチマーク
SimpleQAの主な制約はその適用範囲。SimpleQAは、正確で単一かつ検証可能な回答がある、短く事実を問うクエリという限定された状況でのみ事実性を測定する
事実に基づく短い回答を提供する能力が、数多くの事実を含む長文応答を作成する能力と相関するかどうかは、なお研究が必要なオープンな課題
SimpleQAのオープンソース化が、より信頼できる安定したAI研究を促進し、研究者がSimpleQAで言語モデルの事実性を評価してフィードバックを提供してくれることを期待している

SimpleQAは、短い事実ベースの質問で言語モデルの事実性を測る、興味深く必要性の高いベンチマーク。結局のところ、AIの信頼性を高めるには、事実に基づいた応答を生成する能力を向上させる必要があるため
ただしSimpleQAは限定的な状況での事実性しか測定しないため、実際の活用シナリオにおける言語モデルの事実性を完全には反映しない。今後の研究を通じて、より多様な状況での事実性評価が必要と思われる
また、SimpleQAデータセット自体の正確性は約97%であるため、言語モデルの性能がこれを超えるのは難しいと考えられる。データセット自体の品質改善も継続して行う必要がありそうだ
SimpleQAと似た目的を持つ他のベンチマークとしては、TruthfulQAやHonestQAなどがある。これらとの比較分析を通じて、SimpleQAの長所と短所をより明確に把握できるだろう
言語モデルの事実性を高めるには、大規模で高品質なデータによる事前学習も重要だが、推論時に外部知識を活用したり自己修正したりする能力を備えることも必要に思われる。関連研究が活発に進むことを期待したい