AIの回答には誤りが含まれる可能性がある

(os2museum.com)

2 ポイント投稿者 GN⁺ 2025-06-02 | 2件のコメント | WhatsAppで共有

AI検索の要約は常に正確とは限らない
PS/2 Model 280に関するさまざまな情報が、繰り返し参照するたびに異なって提示される
存在しないモデル番号までそれらしく説明するAIのハルシネーション問題が発生
正しい回答が出る確率は非常に低い水準である
非専門家は誤った情報を簡単に真実だと誤解してしまう危険性が高い

AI検索要約の信頼性問題を体験

IBM PS/2モデルの検索の試み

1992年に発売されたPS/2 Serverシステムの特定モデルを探すため、Googleで検索を実施
検索結果として出てきた情報は探していた機種と一致せず、本来のモデルには**486プロセッサ（複数）とMicrochannel(MCA)**を使うという特徴があった

繰り返された結果と回答の不一致

同じクエリを再実行しても、AI要約の結果が毎回異なって表示された
例えば、PS/2 Model 280が286ベースのISAシステムだという主張を繰り返した
それぞれの回答でRAM容量や仕様の情報まで変化し、一貫性のないデータが示される現象を確認

存在しないモデルに対するハルシネーション的な説明

何度も問い合わせた結果、286システムが128MBまで拡張可能だという主張など、技術的に不可能な情報まで生成された
PS/2 Model 280がIBM PCラインアップの大きな発展だったという説明まで追加で現れた
実際にはPS/2 Model 280そのものが存在しないにもかかわらず、AIは根拠のない説明を非常にもっともらしく提供した

正しい回答の低い頻度

何度もクエリを試した末に、ようやく断続的に「Model 280は実際のPS/2シリーズには存在しない」という正しい答えが出た
正確な回答が現れる割合は非常に低く、大半の場合、AIは根拠のない情報を創作した
ハルシネーションされた回答は情報として価値がなく、むしろ誤った確信を与える

AI検索要約の盲信への警戒

AIベースのインターネット検索は、非専門家には非常にもっともらしく見える可能性がある
専門家であればすぐに誤りを見抜くだろうが、情報を確認する能力が不足したユーザーの立場では、虚偽情報に簡単に惑わされる
AIが「誤りを含む可能性がある」と警告するのは、決して軽く聞き流してよい問題ではなく、信頼できるファクトチェックの過程なしにAIの回答に依存するのは危険である
説得力があるように聞こえるからといって、実際の事実に基づいているとは限らないことを強調
AIベースの要約や検索結果に対しては、常に疑いと事実確認が必要であることを改めて認識させる

2件のコメント

ndrgrd 2025-06-03

LLMには要約だけをさせるのがよいように思います。データの出典を見つけて検証するプロセスが必ず必要です。

GN⁺ 2025-06-02

Hacker Newsの意見

Google Geminiの検索結果が、質問に合っているように見せるために適当に回答を作り出す confabulation の特性に言及し、文脈や正確性を気にしていない点を指摘。結果を予想できている場合にだけ記憶補助として使えるが、そうでなければまったく信頼できないという体験談を共有。Google Veo の結果にも穴が非常に多く、AIの結果には論理や推論がないことがあからさまに表れているという話。Veoが的外れな結果を出す例や、Tesla FSDが異常挙動をする事故記事のリンクも共有
AIビデオのリアリズム
 Tesla FSD事故ニュース
- この品質の結果がいつの間にか「正常」「許容可能」なものとして受け入れられる空気ができており、誰もあまり問題視しない現実が非常に不安だという指摘。以前なら絶対に容認されなかったはずなのに、なぜ今は不正確な結果がだんだん受け入れられているのか疑問だという声
- 車関連の機能をググったところ、従来のGoogle検索はこうしたクエリを本当にうまく処理していたのに、今では90%が間違った年式・モデル・ブランド情報の入り混じったAI結果で埋め尽くされているという体験談。唯一少し役に立ったのはYouTubeの1件だけで、ページ最下部の隅に昔の car forum にあった正解があり、CamaroZ28.com に感謝を伝えている
- この状況はどんな技術よりも当惑させられる現象であり、Googleが自社の中核事業をこれほど深刻に欠陥のある技術への方向転換に賭けているのが理解できないという意見。Ben Evans のような「良くなっていく」という約束も空約束にすぎないと思う、という声もある。実際、昨日ドイツで開かれた追悼イベントを検索したところ、AI Overview がすでに亡くなっているイタリア人ミュージシャンの名前を持ち出し、その会場がそのミュージシャンの最高傑作だとでっち上げた例を共有。ChatGPTにその回答を貼り付けたところ、AI Overview の誤りをやわらかく辛辣にからかう返答まで返ってきて笑ったという話
- AIが表面的には史上最高レベルに賢そうに振る舞う一方で、実際には内部の論理や推論が追いついておらず、奇妙な「不気味の谷」に入った感じがするという意見
- 正直、LLMを検索の代替として使っている人たちがどう使っているのかよく分からないという声。チャットボットはいつも、自分が欲しい情報に隣接したデータしか出してこないレベルで（たとえばソースを聞くと引用文だけ返すなど）、もしかして自分の検索の仕方が悪いのかと疑問に思っている
LLMの限界と確率論的な特性を知っている立場だが、周囲の家族や友人がLLMを信頼して不適切な作業に使っているのを見ると、自分だけがAI懐疑派のように扱われると嘆く声。彼らはAIに割り勘のような数字の割り算までさせ、LLMの結果を無条件に信頼する問題があるという
- ハイテクでローテクな問題を解く古典的な事例であり、単純な数の計算までわざわざ機械に任せるのは滑稽だというやゆ
- 日常用途では結果が「それなりに」当たることが多く、人々が習慣的に依存してしまう点が tricky だという指摘
- 単純な計算をLLMにやらせるのは実際かなりおかしな話で、変数に Python を使わせればいいのに、という冗談も出る
- LLMの利用自体が、たとえば室内喫煙のように周囲にも害を及ぼすという比喩
- 「AIに計算させ、情報を調べさせ、その結果を100%信頼する」という現象について、実際この程度の単純で機械的な用途なら現時点のチャットボットは全部きちんとこなせるのではないか、という意見もある。さまざまな機能を一度に処理できるのに、わざわざ場面ごとにアプリを切り替える必要があるのかという疑問で、結局 usability が最も強い動機だという話
「AIの回答には誤りが含まれる可能性があります」という簡単な文言や、ChatGPT下部の警告はすでに不十分なレベルだという指摘。LLMの hallucination を何年も警告してきても人々は失敗し続けており、LLM提供者はもっと積極的にユーザーへ限界を教育すべきだという主張。ユーザー体験に不便が生じても必須だと考えている
- この種の議論でこれ以上できることは、モデル提供者に責任を負わせるか、現在の限定的な事前告知体制を維持することくらいだろう、という考え。すでにAIモデルやクラウドサービスには多層的なフィルタリングや検閲が存在しており、これ以上の摩擦といっても結局はポップアップ追加のような些細なものに過ぎない。責任をモデル提供者に問うようになれば、その瞬間に公開モデル事業そのものが不可能になり、企業同士が個別にライセンス契約して使うだけで、一般大衆向けのAPI公開自体が不可能になるだろうという見方。今後の空気の変化で制限が少しずつ緩む可能性がある程度だと予想している
- 「ユーザー教育をもっと効果的に行うべきだ」という主張について、結局は経験から学ぶしかない、つまり「実際に痛い目を見ないと実感できない」問題だという意見。どんな警告文も実害を受けることほど効果的ではないという現実論
- LLMは本質的に人間の知的労働の代替という名目があるため、提供者が積極的に限界を強調することはできないという見方。Anthropic CEO が大規模失業は避けられないと何度も述べていたこととの矛盾を指摘している
- 昔のApple地図サービスやGoogleマップも誤案内でPR危機対応をしていた時期があったのに、今では警告文さえ付けておけば問題ないかのような雰囲気だという指摘。新技術があまりにも多くの寛容さを与えられている現実への失望感が語られる
- 「警告文はページ最上部に、赤字で大きく表示すべきだ」と強調
言語モデルは知識を「知る」ために設計されたのではなく、「話す」ために作られたものだと説明している。だからこそ「knowledge model」ではなく「language model」と呼ばれる。すでに生成された単語の後にどの単語が来るかを確率的につなぎ合わせているだけであり、毎回違う結果を出す理由は、内部的に疑似乱数生成器によって次の単語を選ぶ確率分布があるためだという。temperature を 0 にするとランダム性は消え、常に最も確率の高い単語だけを選ぶようになるが、その結果は非常に退屈になる。IBM、PS/2、80286、80486 などについて事実を知っているわけではなく、ただ単語を並べているだけだという説明
- temperature を 0 にしてもローカルモデルでは十分うまく動くという経験談。クラウドベースのUIで 0 を封じているのは、モデルが無限反復ループに陥るバグを一般ユーザーに目撃させないためだろう、という見方
- 言語モデルが「知識」を提供しているのではなく言葉を生成しているだけだという事実自体には同意するが、Googleを使う人の立場では会話しに行っているのではなく実際の「知識」を得るために利用しているのだという指摘。Googleが信頼できる知識提供を単なる「単語生成」に置き換えようとしているのは本質的な誤りだと思うが、広告収益が目的である以上、実際にはあまり関係ないのかもしれないという皮肉
Google検索サイトですら「AIの回答には誤りが含まれる可能性があります」という警告文が「もっと見る」ボタンの下に隠れている点を突いている。OpenAI ChatGPT がリリースされた当時、非専門の教授に、今のAIは「本当のAI」ではなく計算ベースの言葉遊び（parlor trick）に近いと説明した経験があるという話。しかし、そうした「言葉遊び」が課題の丸写しには驚くほど効果的であり、全体として課題だけでなくさまざまな場面で、品質や著作権を気にしないなら「不正」のための非常に良い道具だという印象もある
- 「見た目だけコードが書けるように見えて、実際には書けない」という見解に疑問を呈し、実際にはコードも書けるし、裏側で何が起きているかは人間の脳についても同じで誰にも分からない、本質論争に大きな意味はなく実際の結果が重要だという主張
- 柔軟な入出力インターフェースを備えた記憶補助・情報検索ツールという実用的な見方
Gemini は人々がよく尋ねるFAQ的な質問には最適化されている一方で、より伝統的な検索意図に対してはむしろ的外れで confabulated な答えを返す傾向があるという指摘。多くの人が AI Overview を神託のように信じているのを目撃しており、これが一般大衆のAI体験なのだという。ニュースへの信頼とは違い、AIは年齢や demographic に関係なく誰もが信じてしまう。人間は本質的に、根拠のない自信に満ちたコンピュータの答えを好む種族なのではないかという考え
- Googleの検索環境の変化が特に深刻だという評価。以前のページ上部 excerpt UI は10年以上使われ、信頼できるサイトから抜粋してくれてクリック数を節約できる、信頼に足る情報源だったと回想する。医療系の質問では Mayo Clinic のような信頼できる場所から引用され、ページでも直接確認できたため信頼が積み上がった。時間が経つにつれこの信頼システムはSEOによって徐々に損なわれ、現在は AI Overview という本質的に別のシステムに置き換えられてしまったことが核心的な問題だという。信頼できる有効な出典をリアルタイムで検証できた時代とは明確に違うという指摘
- 直接LLMを使わない人だけでなく、LLMを業務で使うマネージャーでさえ、自分を肯定してくれる答えが出るまで質問を変え続けて望みの答えを探し出しているという話
- 人は根拠のない確信に基づく回答そのものをもともと好むのだという根本的な心理への言及
- もはや何かを検索して学べたインターネット環境は失われたと感じるという声。あらゆる結果が信頼できないSEOスパムのゴミになっていて、AI Overview によってさらに悪化しそうだと懸念している。「プリンターの動作原理」を検索したときに、たとえば「滑車とロープのシステム」のようなとんでもない答えが出ても、そのまま信じる時代が来るのではないかという怖さがあるという。実際にそうしたあり得ない、時には危険な誤答を毎回目にしてきたという省察
「AIの回答にはミスが含まれる可能性がある」というメッセージこそ、AI議論の中で最も聴衆に叫びたい核心だという意見。あらゆるAI倫理・安全の議論で、この点とエネルギー・気候への影響が中心になるべきであり、この二つこそがAIブームが続いた場合に人類へ最大の害をもたらすと考えている
- 問題は「ミスがあるかもしれない」ではなく「必ずミスが起きる」という点だが、人々はそれを自覚せず万能の神託のように信奉しているという指摘。実際には単なる確率モデルにすぎず、十分に試行すれば猿でもシェイクスピアを書ける確率がある、というたとえ
Google は検索の根本を完全に取り違えており、今では答えの正確性よりも高速な要約とスポンサードリンクにしか集中していないという批判
- 速い回答10件のうち6件は微妙に間違っていて、2件は露骨に間違い、1件は危険ですらあるという経験談。実際に人を傷つけたり法的問題を引き起こしたりしかねない回答があるという
- Eric Schmidt 時代の Google の「無回答より何かしらの回答が多い方がよい」という戦略が、今や「間違った答えでも無いよりはまし」という形に進化したのだろうという見方
AIは、根拠もなく何にでも自信満々に答える人と似ており、だから真面目に信頼する理由はほとんどないという見解
- 心理的要因が核心であり、人は誰かが自信なさげにしていると非言語的なシグナルでそれを感知するが、AIにはそうしたシグナルがなく、機械が出す答えは本来正確なものだという長年の信頼もあるため、批判的に接する人の割合は非常に低いという指摘
- いまだにどのAI企業も自社製品名を「Cliff Clavin」にする度胸はなく、名誉毀損のリスクやいろいろな勇気の問題もある、という冗談も出る
- 「いったいなぜAIを本気で信頼するのか分からない」という主張に対し、「何十年にもわたり世界中の情報提供を目指し、正確な答えを提供しようと努力してきた Google のような企業がそれをAIで提供すると言うのなら、人々が信頼するのは当然ではないか」という反論
最近ChatGPTと Python コードを扱っていた経験として、Gunicorn のロガークラスを特定のURLパスでは除外したくて、自分で3つのソリューションを作り、それぞれの速度を比較してほしいとチャットボットに頼んだという話。ベンチマークコード付きで regex が最速だという結果を受け取ったが、実際に自分で実行してみると tuple 方式の方が5倍以上速かった。結果を伝えるとチャットボットは「教えてくれてありがとう、tuple 方式が正しい」とすぐ修正したという。必要なベンチマークコードを素早く受け取れたので時間の節約にはなったが、正解に確信のない領域ではチャットボットの結果をあまり信頼しなくなったという経験

AIの回答には誤りが含まれる可能性がある

AI検索要約の信頼性問題を体験

IBM PS/2モデルの検索の試み

繰り返された結果と回答の不一致

存在しないモデルに対するハルシネーション的な説明

正しい回答の低い頻度

AI検索要約の盲信への警戒

関連記事

2件のコメント

Hacker Newsの意見