AIアシスタント、ニュース内容を45%の確率で誤って伝えることが判明

(bbc.co.uk)

7 ポイント投稿者 GN⁺ 2025-10-23 | 1件のコメント | WhatsAppで共有

欧州放送連合（EBU）とBBCが主導した国際共同研究で、主要な**AIアシスタント4種（ChatGPT、Copilot、Gemini、Perplexity）**がニュース内容を伝える際、45%で歪曲や誤りを示すことが明らかになった
この研究には18か国・22の公共放送が参加し、14言語、3,000件以上の回答を評価した結果、出典の欠落・不正確さ（31%）、**事実誤認・ハルシネーション（20%）**などが多数見つかった
特にGeminiの問題率は76%で最も高く、主な原因は出典表示の失敗と分析された
BBCの以前の研究と比べて一部改善はあったものの、依然として体系的かつ多国間レベルの問題が確認された
AIアシスタントがニュース検索を代替する流れの中で、公共の信頼と民主的参加の萎縮リスクが提起されている

研究概要

**EBUニュース総会（ナポリ）**で発表された今回の研究は、過去最大規模の多国間実験として、AIアシスタントが言語・国・プラットフォームを問わず一貫したニュースの歪曲を示すとの結論を提示した
参加機関: BBC、ARD、ZDF、CBC、NPRなど世界22の公共放送
評価基準: 正確性、出典の明示有無、事実と意見の区別、文脈の提示など主要な報道倫理指標

主な結果

全回答の45%で深刻な問題が見つかった
- **31%**は出典エラー（欠落、誤った引用、誤認された出典）
- **20%**は正確性の欠陥（ハルシネーション、古い情報、誤情報を含む）
Geminiは問題率が**76%**で、他モデルの2倍水準
BBCが今年初めに発表した研究より一部指標は改善したが、依然として全体的な歪曲率は高い

なぜこの歪曲が重要なのか

AIアシスタントはすでに多くの人にとって検索エンジンに代わるニュースへの窓口として定着している
Reuters Instituteの『Digital News Report 2025』によれば、オンラインニュース利用者全体の7%（25歳以下では15%）がAIアシスタントをニュースソースとして利用している
Jean Philip De Tender（EBUメディアディレクター）は、「AIアシスタントの問題は国境と言語を超えた体系的現象であり、これは公的信頼を脅かす」と警告した
BBCのPeter Archerは、「AIの可能性は大きいが、信頼できる情報の提供が優先されるべきであり、報道機関とAI企業の共同対応が必要だ」と強調した

対応と次の段階

研究チームは問題解決のための**『News Integrity in AI Assistants Toolkit』**を公開した
- 良いAI回答の基準と問題解決の方向性を提示
- AI回答の品質改善とユーザーのメディアリテラシー向上を目指す
EBUはEUおよび各国の規制当局に対し、情報の完全性とデジタルサービス関連法の執行強化を求めるとともに、AIアシスタントの継続的な独立モニタリングを提案している

追加研究と認識調査

BBCは別途**『Audience Use and Perceptions of AI Assistants for News』**報告書を通じて、
- **3分の1以上（英国の成人）**がAIが作成したニュース要約を信頼すると回答し、
- 誤りを発見した場合、AIだけでなく報道機関にも責任を問う傾向があると分析した
これはAIアシスタントの誤りがニュースブランドの信頼度にも悪影響を与えうることを示している

参加放送局一覧

ベルギー（RTBF、VRT）、カナダ（CBC-Radio Canada）、チェコ（Czech Radio）、フィンランド（YLE）、フランス（Radio France）、
ジョージア（GPB）、ドイツ（ARD、ZDF、Deutsche Welle）、イタリア（Rai）、リトアニア（LRT）、
オランダ（NOS/NPO）、ノルウェー（NRK）、ポルトガル（RTP）、スペイン（RTVE）、スウェーデン（SVT）、
スイス（SRF）、ウクライナ（Suspilne）、英国（BBC）、米国（NPR）

1件のコメント

GN⁺ 2025-10-23

Hacker Newsの意見

実際のレポートを見れば、数値がどう算出されたのか分かる。エラーの大半は「出典の問題」で、AIアシスタントが主張の出典を示さなかったり、（驚くべきことに）BBCではなくWikipediaを引用したりしている。さらに、このレポートはどのモデルを使ったのかも明確にしていない（付録では触れられていた）。Anthropic（こうした作業では私の見る限り最高）は除外され、PerplexityやCopilotだけが対象になっていた。最近のレポートと1年前の研究内容を混ぜていて文脈が失われており、状況が大きく変わった点も抜け落ちている。この記事には重要な問題がいくつもある
- 人間の記者だってホワイトペーパーの内容を85%くらい誤って伝える。そう考えると45%という数字はそこまで悪く感じない
- 引用の問題は、BBCのrobots.txt がAIクローラーや大半のユーザーエージェントをブロックしているせいかもしれないとも思う
- 人間が書いた文章を解釈する際に生じる問題は本当に大きいという点には同意する。今回の記事が良くなくても、記事が主張するような問題は実際に深刻に存在する。LLMは個々の文を誤解したり、誰が何を言ったのかの追跡を失ったりすることが、最新モデル（GPT-5を含む）でもしばしばある。特に人間の書いた議論を分析させると起きやすい。こうした問題はおそらく解決可能だろうが、まだ完全には解決されていない
- WikipediaをBBCの代わりに引用するのが問題だという指摘には、ぜひ付け加えたい。実際にはもっと大きな問題は、「存在しない」Wikipedia記事を引用することだ。たとえばChatGPTは、実在しない「European Union Enlargement Goals for 2040」というWiki記事にリンクを張っていたが、EUの公式政策でもなかった。存在しないURLだけでなく、架空のEU目標や政策まで作り出している
- この記事は、自分の役割をきちんと果たしていると思う。人々が後で引用する見出しを投げる役割だ。今後1〜2か月のうちに、実際にこの記事のリンクや「AIプロジェクトの95%が失敗する」といった雑な引用があちこちに出てくるだろう。POSIWID（“the purpose of a system is what it does” の略で、システムの目的とは実際にそれがしていることだという意味）
実際にAI要約と原文を比較したことがある人がどれくらいいるのか気になる。私は何度か自分で比べたことがあるが、出力は本当にひどかった。要約というより「ランダム圧縮」のようなことをしていて、これは要約とはまったく別物だ。ひどい場合には、核心の結論が実際と完全に逆になる。だからAI要約機能はもうまったく信用していない
- Geminiの通話要約機能を自分で確認すると、ほぼいつも深刻な問題が入っている。昨日もGeminiが、私たちが合意していない事項を、あたかも決定済みであるかのように記録していた。それがいちばん重要な内容だったのに、結果は完全に逆だった。むしろ無いほうがましなレベルだ
- 「ランダム圧縮」という表現は本当にぴったりだと思う。私はメールやテキストメッセージの要約で特にこの現象が目立つと感じる。メッセージの要点をまったく捉えず、ランダムに文だけを抜き出すが、99.9%の場合それは本当の核心ではない。だからもう無視するようになった
- 自分で使った感じでは、この現象は主に軽量なオープンソースモデルやミニモデルでよく見られる。SOTA級のモデル（例: Sonnet-4.5、Opus-4.1、GPT-5-Thinkingなど）ではこうした問題はほとんどない。だがコストが高すぎるので、たいていの会社はコストや速度の都合で安価なモデルや未実装のTTCを使う
- こういう現象は、ニュース記事の見出しがクリックベイトであることが多いからではないかとも思う。AIが見出しだけ見て内容を要約しているなら、原文の半分以上を誤解しても驚かない
- ときどきAIは、そもそも存在しない内容を丸ごとでっち上げることもある。実際、論文タイトル、著者、結果まで全部根拠なく創作された引用を見たことがある
Geminiに最新ニュースを集めて表示するよう頼んだところ、検索を使わず、タイトル、要約、リンクまで全部捏造した。1〜2回ではなく、何度も起きた。だから今ではGeminiを、Web検索が絡むどんな作業にも使うのが怖い。例として、「Google DeepMindとHarvardの研究者が、LLMの『心の理論（testing the theory of mind）』を評価する新しい方法を提案した」という内容とリンクを受け取ったが、リンクは機能せず、タイトルも検索に出てこなかった
- Geminiの答えを10回見れば、7回以上は間違っている。製品名を取り違えたり、実際とは違う営業時間を教えたりすることもある。たとえば妻と行ったレストランについて、月〜金営業だと案内されたが、実際には火〜土営業で無駄足になったことがある。ときには数十個もの「事実」を丸ごとでっち上げることさえある。妻は今では自分でより慎重に確認するようになり、店主ですら「GeminiがXと言うなら、実際はYなんじゃない？」と冗談を言うような状況だ
- 同じ現象を再現できていない。どんなプロンプトを使ったのか気になる。今日のトップニュースを頼むと、Google検索を使って本物のリンクを出してくれる
- どのバージョンのGeminiを使ったのか、APIから直接呼んだのか、Webアプリ（GeminiやAI Studioなど）から使ったのかも気になる。すべてのLLMアプリでWeb/ニュース検索機能が有効になっているわけではないので、アクセス権によって結果はまったく変わる。もちろん、AIにWeb検索権限がないなら、その事実を知らせるべきであって、偽リンクを作るべきではない。もしWeb検索機能が有効だったのに適切に検索を実行しなかったのなら、それ自体が問題だ
- そういうことなら、普通のニュースサイトに行って自分で見出しを読んだほうがいいのではないかと聞きたい
- AIが出してくるリンクであっても、必ず自分でクリックして、本当に内容が正しく説明されているか確認すべきだ
LLMの伝道師たちが、こうしたツールの粗い性能を即座に合理化してしまうことで、ユーザーがどれほど失望するか分かっているのだろうか。技術的限界というより、まるで「信仰」のレベルの態度に見える。まるで「能力」そのものが過大な要求であるかのように感じさせている
- そうした伝道師のかなりの部分は、結局AIで作った試作品（プロトタイプ）だけを売りにして、熱が冷めれば崩れるスタートアップの創業者なのだろうと思う（あるいは、リーダーが夢中だから自分も乗って賢く見えたい開発者かもしれない）。テック業界には「できるようになるまでハッタリをかます（fake-it-till-you-make-it）」文化が広がりすぎていて、がっかりする
- 私たちはすでに『ポスト真実（post-truth）社会』に生きていると思っている。何を言うかの真偽は重要ではなく、その発言によって自分や自分が推しているものの力が強まるかどうかだけがすべてだ
- 循環的なポンジ構造に投資している人なら誰でも、LLMの失敗を無条件に擁護する。彼らは、無意味なトークン分布が『機械の認知』だという幻想を本気で信じようとしたり、完璧でなくても大半は使えると合理化したりする。そうした幻想が集団的に数兆ドル規模の評価額を支えるために使われている
- こうした現象はLLMだけの問題だろうか。すでに社会全体で『能力』は大して意味がないものと見なされて久しいと思う。たとえば、小学5年生レベルも読めない生徒に卒業証書を与えることや、英語が不自由な場所にコールセンターをアウトソースすることなどに表れていると思う
- 一部は同意するが、最近の議論はニュースメディア批判や別の方向へと論点がずれていく感じがある。今回の研究結果にもかなり疑わしい点があると思う。論文ではなく有料依頼のIpsos調査なので、なぜ基準値がこんなに低いのか理解できない。少なくとも、どのモデルを使ったのか、検索R@k値、BLEU/ROUGEのような要約精度指標、そして人間評価メトリクスは示されるべきだと思う。もしそうした評価すらないのなら、この結果はこの分野の内外を問わず何の役にも立たない
PDFの10ページ目から具体的なミス例が載っている: BBC公式レポート
例: ChatGPTが「European Union Enlargement Goals for 2040」という存在しないWikipedia記事を引用している。実際のEUにはその名前の政策はない。偽のURLだけでなく、EUの目標や政策まで捏造している
- 実はその文書は以前存在していたが、削除手続きに入っていた記録がある: 削除議論の記録。こうした点すら確認も開示もしていないのは、かなり大きな欠落だと思う。故意ではないかと疑いたくもなる
LLMに会議やメール、コミュニケーションの要約を任せると、その人は本当のメッセージを受け取れなくなるという点を、常に覚えておく必要がある
- これは怖い話だと感じる。思考そのものを委任するだけでなく、代替不能な唯一の道具まで自分で壊してしまうことになる。似た経験がある。履歴が明確でない文書編集記録をAIに任せるか迷ったが、時間がなくてやめた。もし任せていたら、もっともらしい記録は出てきただろうが、実際にどんな変更があったのかを教えるどころか、むしろ逆に歪んだ内容を受け入れていただろう。知識が足りない（知らない）のではなく、その反対である誤った知識（anti knowledge）を得てしまう
- それが事実なら重要な警告だが、少なくとも私の実体験は違う。私は毎日営業ミーティングをしていて、さまざまなAI要約ツールで会議内容を受け取っている。CRMに保存された要約を自分で確認すると、ほぼいつも非常に正確だった。自分が実際に参加して検証できた
- 私たちはここ数か月、会議でMS Copilotを使っているが、誰が何を言ったか、誰が何を担当したかを非常によく要約してくれる。とても便利で、私の経験では明瞭さも高い
Kagi Newsはかなり正確だと思う。原文の出典や主要なディテールも一緒に要約してくれる。AI要約は、その記事を実際に読むかどうかの当たりをつけるのに役立つ。ただし重要な事実は必ず自分でも再確認する
- 事実確認をどこまでやれるのかは疑問だ。実際に現場へ行って取材したり、各分野の論文や参考文献まで読んだりしなければ、要約が正しいか判断できないこともあるだろうし、結局どこかでは信頼が不可避に入ってくる面がある
- 私も似たようなプロジェクトをやった経験があるが、RSS記事の要約ではかなり良い結果が出た。特に「推論（reasoning）」中心のモデルを使うと結果がずっと良かった
- Kagi Newsは複数のニュース記事をコンテキストに入れて要約する形式だ。これは元の投稿で出ていた「LLMにWeb検索でニュースを提供させる」ケースとは構造が異なる
- こういうサービスもある: rawdiary.com
- Kagi Newsについては同意するが、Particle Newsも良かった。ただ、Particle NewsはThe Atlanticから出資を受けており、その媒体の記事に「Featured Article」の枠を与えることがあった。こうしたケースでは、バイアスを区別するグラフィック表示はされていても、Featured Articleには適用されない。このほかの投資家についても似たことはあるのだろうが、Atlantic関連のプロモーションは比較的最近の事例だ
レポートによれば、無料/コンシューマー版のChatGPT、Copilot、Perplexity、Geminiだけを使ったと明記されている。CopilotはChatGPTモデルを使っており、Grokなど他のものはそもそもテスト対象から外れていたということだ
DeepSeek V3を自動化した暗号資産ニュース分析に使っているが、最新の精度レポートでは98.5%という数値が出た。なのでこの記事の結果には少し驚いた
私の精度レポート
記事にある質問の半分は政治的に敏感な争点だ。興味深くはあるが、AIがより刺激の少ない一般ニュースでどういう性能を見せるのかを評価するには、もう少し汎用的な設問が必要だと思う。中には即答よりも深いリサーチモードのほうが適した質問もある。実際、ニュース自体が答えについて意見だらけなことも多い

AIアシスタント、ニュース内容を45%の確率で誤って伝えることが判明

研究概要

主な結果

なぜこの歪曲が重要なのか

対応と次の段階

追加研究と認識調査

参加放送局一覧

関連記事

1件のコメント

Hacker Newsの意見