- ChatGPT o1とGemini 2.5を対象に幻覚現象の誘発方法を実験していたところ、o3がリリースされた
- o3はo1と違って、インターネット検索、画像認識、コード実行といった機能を備えた強力なマルチモーダルモデルである。しかし、人間ならしないような虚偽の回答をすることがあると分かった
- 核心仮説: LLMは人間と違って感覚器官を持たない。したがって、視覚や方向感覚などの情報が必要な質問に弱いはずだ。
- 幻覚を誘発する質問
- ゴッホの『じゃがいもを食べる人々』を描写する
- 人物構成そのものを間違えたo1よりはましだが、具体的な描写では依然として誤りがある
- モーツァルトのピアノソナタ K545 の旋律を階名で答える
- インターネット検索機能で元の画像を見つけたにもかかわらず、正しく答えられなかった
- 視覚モジュールは楽譜を認識できないように見える
- 徒歩ルート検索の結果
- NAVER地図の検索結果が含まれていたにもかかわらず、誤って回答した
- 韓英キーボード切り替えの問題(例:
cotwlvlxl -> チャットジーピーティー)
- 入力の規模が小さいときはうまく答えるが、大きくなると虚偽の回答を生成する
- まるで問題を解いている途中で「もう分からない」と言って飛び出していくように見える
- 伝統的なアルゴリズムにはこうした「もう分からない瞬間」はない。ただ長時間実行されてタイムアウトするだけだ
- 結論
- 真の意味での感覚器官がないことは、今なおLLMの有効な弱点である
- 問題を解けないこと自体は欠陥ではない。本当の欠陥は、虚偽の回答をでっち上げることだ
- 開発元には、推論能力の強化や新機能への注力だけでなく、分からないときは分からないと言えるメタ認知を持たせてほしい
まだコメントはありません。