生成AIとウィキペディア編集：2025年に学んだこと

(wikiedu.org)

2 ポイント投稿者 GN⁺ 2026-02-02 | 1件のコメント | WhatsAppで共有

Wiki Educationは2025年を通じて、生成AI（ChatGPTなど） がウィキペディア編集に与える影響を体系的に調査した
AI検知ツール Pangram を活用して2022年以降に作成された3,078本の記事を分析した結果、178本の記事がAI作成の疑いありと判定され、そのうち 3分の2以上が検証失敗 と判明した
これを受けてプログラム参加者向け教育を強化し、AI利用ガイドラインとリアルタイム検知システム を導入して、AI生成テキストの直接コピー＆ペーストを防止した
AIは記事の草稿作成には不向きだが、資料探索・出典探し・内容の空白把握 など研究段階では有用に活用できる
Wiki Educationは、AI検知の自動化と編集者教育の拡大 がウィキペディアの信頼性維持の鍵だと強調した

生成AIとウィキペディアの関係

Wiki Educationは英語版ウィキペディアの新規アクティブ編集者の約 19%を担っており、生成AIの影響とリスクを分析した
- ChatGPT、Gemini、Claudeなどのチャットボットが日常化するにつれ、ウィキペディア編集への活用も増えている
- 同組織は参加者のAI利用行動を評価し、その結果を公開した
結論として、AIの出力をそのままコピーしてウィキペディアに貼り付けてはならない という原則を示した

AI検知と検証結果

2022年のChatGPT公開以降に作成された記事のうち、178本がPangramによってAI作成と検知 された
- 2022年以前にはAI利用の痕跡はなく、その後は徐々に増加した
偽の出典を使っていたのは7%のみ で、残りは実在する出典を引用していたが、3分の2以上が検証に失敗 した
- 引用された出典に該当情報が存在せず、事実確認ができなかった
Wiki Educationは、検証に失敗した記事の整理作業 に相当な人的リソースを投入した
- 一部の記事は「stub」扱い、一部は削除提案（PROD）、一部は復旧不能と判断された

プログラム改善とAI検知システム

Pangramの支援により、参加者の編集をリアルタイムで分析 する体制を構築した
- 独自の Dashboardプラットフォーム を通じて編集追跡と自動通知機能を運用している
新たな教育モジュール “Using generative AI tools with Wikipedia” を導入した
- AIを使ってよい領域と禁止される領域を明確に区分した
- 「AIテキストをコピー＆ペーストしないこと」を中核メッセージとして強調した
2025年下半期の 1,406件のAI編集警告 のうち、実際の記事名前空間で発生したのは22%のみだった
- 大半は練習用サンドボックス段階で検知された
Pangramは書式や一覧など非文型テキストで 一部の誤検知（false positive） を示したが、本文文の分析では高い精度を維持した

AI利用行動と教育効果

2025年秋学期は 6,357人中5%のみが実際の記事でAI検知 され、その大半は手動または自動で差し戻された
- 参加者、講師、ウィキ専門家が協力してAI生成テキストを除去した
講師たちは 「検証可能性（verifiability）」 を中心に学生の作業を評価した
- AIが生成した文は事実検証が不可能であり、ウィキペディアには不適切であることが確認された
Pangramによる早期介入によって、AI利用率を予測の25%から5%へ低下 させた

AIの前向きな活用可能性

AIは 記事の空白領域の特定、出典探索、資料へのアクセス経路の提示 など、研究段階で有用だった
- 7つの授業で102件の利用報告のうち、87%が有用だったと回答 した
- 最も多く使われたツールはChatGPTで、次がGrammarlyだった
学生たちはAIを 文章校正、カテゴリ提案、草稿評価 などに活用した
- ただし、AIで本文を書いた事例はなかった
AIの結果は批判的に検討した場合にのみ役立ち、人間の判断が不可欠 だと強調した

Wiki Educationの結論と今後の計画

現在の水準の生成AIは 検証不可能なテキストを生成 するため、ウィキペディア本文の執筆には不向きである
- AIが生成した文を検証するのにかかる時間は、直接書くより多い
しかし、資料探索・アイデア発掘 などでは補助ツールとして活用できる
Pangram検知システムは2026年も維持・改善する予定
参加者の AIリテラシー不足 を確認し、大規模言語モデル（LLM）教育モジュール を追加提供する
プリンストン大学などと協力し、AI導入前後での学生編集の変化に関する研究 を進めている
- Pangramが2015〜2022年の編集を100%人間作成と正確に識別したことも確認された

ウィキペディア全体への示唆

世界の成人のうち 10%がChatGPTを利用 しており、その多くが text作成に活用している
- 初心者編集者がAI生成内容を検証なしで追加してしまうリスクがある
Pangramのような自動検知ツール はウィキペディアの品質維持に不可欠である
- 現時点では手動バナー表示しかできず、自動化された検出システムが必要だ
新規編集者向けに AI利用警告と出典中心の編集教育 を強化すべきだと提案している
- ウィキメディア財団の編集支援ソフトウェアも、人間中心の要約方式 を優先すべきだ
ウィキペディアが 技術変化に適応しつつ信頼性を維持 するためには、AI時代に合った方針とツールの開発が重要である

1件のコメント

GN⁺ 2026-02-02

Hacker News の意見

ウィキペディアでは以前から出典検証の失敗という問題が蔓延していた
最近になってその頻度が増えたという証拠は見つけにくい
ほとんどの執筆者は自分の知っていることを書き、後からもっともらしい引用を最低限付ける形で書いているように見える
ページの専門性の水準やトピックのニッチさによって信頼性が変わる感じがする
- 最近の Changelog ポッドキャストのエピソードで、こうした事例がリアルタイムで起きていた
  司会者たちは自分たちが「GitHub 出身」と誤って記載されているのを見つけ、ゲストが収録中にウィキペディアの引用を修正した
- 私が経験した問題は二つある。一つは偽の引用で、もう一つは引用自体は本物でも、その出典が信頼できない人物からのものという場合だ
  こうした問題を指摘すると、一部の編集者は「ウィキペディアは信頼できる」と主張する
  こうした認識が変わらない限り、改善は難しいと思う
- LLM は人間よりはるかに高い頻度で根拠のない結論を付け加える可能性がある
- 実際、こうした引用検証はAI が自動検出し、人間がレビューできるようフラグを付ける用途に使えるかもしれない
- 多くの文書は引用がほとんどなかったり、誤った引用によって結論が歪められていたりする
  たとえば水分子の挙動を誤って解釈した事例のように
記事では三度も「生成 AI の出力をコピペするな」と強調している
私も似た経験がある。最初は驚くほどもっともらしいが、すぐに見せかけとノイズが多いと気づく
それでもアイデア出しやブレインストーミングにはかなり役立つ
私がそのタイトルを選んだのは、記事の核心を強調するためだ
「フラグされた文書の 3 分の 2 以上が検証に失敗した」という一文が特に印象的だった
- 政治関連の文書では以前からこうした問題がよくあった
  実際に引用を検証してみると、いい加減な出典が多い
  AI が問題を悪化させることはありうるが、人間による悪意ある編集も依然として存在する
- もともと投稿されたタイトルは「フラグされた文書の大半が検証に失敗した」だった
  その表現が核心をよく表していると思う
- 人間も根拠のない内容を書くが、LLM は速度と規模の面ではるかに速い
  AI 以前の引用エラー率がどの程度だったのか、比較データが気になる
この記事が扱っているのはウィキペディア全体ではなく、Wiki Edu プログラムを通じた編集だけだ
つまり、大学生が授業課題として書いた文書についての話だ
- 学生にウィキペディア編集を強制すれば、熱意なく書かれた質の低い成果物が出てくるのは当然だ
  結局のところ、問題はウィキペディアよりも大学内での AI 利用習慣に近い
- これは学生が論文を書くときにもっともらしい引用だけ探して貼り付ける習慣とも似ている
  博士課程の学生ですらこういう書き方をしているのを見ると残念になる
- Wiki Edu の編集文書の中には創作ライティング課題のように見えるものもあった
  出典を読んでみると、不自然に意味を取り違えたり誤って要約したりしている場合が多かった
  LLM はこうした学生の「点数のための文章書き」にぴったりの道具だ
ウィキペディアの問題を超えて、世界中の何百万人もの人が LLM でテキストを作り、その一部が事実として消費される現象のほうがより大きな問題だ
LLM には真実に対する義務がなく、文法的な一貫性にしか忠実ではない
- 実際には LLM は文法的一貫性ですらなく、大衆的に通用する文体に合わせようとする傾向がある
  それがたまたま正しいこともあるが、常に不安定だ
一部の文書だけを見ると、ボット作成比率が実際より少なく検出されている可能性もある
つまり、検証に失敗した文書だけが検出された可能性がある
- Pangram という分類モデルは、人間が書いたテキストと複数の LLM が書いたテキストを比較して学習したテキスト分類ニューラルネットワークだ
  詳しくは論文 PDFで確認できる
LLM 提供者の立場からすると、これは共有資源の汚染のような悲劇だ
ウィキペディアは学習データの大きな比率を占めているのに、なぜ自ら汚染するのか疑問だ
ウィキペディアで AI 利用を禁じる方針ができたら興味深い
- 問題の主体は AI 提供者ではなく利用者たちだ
  GitHub でも同じことが起きている
- しかしこうした引用エラーは LLM 以前から存在していた
  ウィキペディアだけでなく他の場所でも、出典が主張と一致しない引用はよくある
- 結局、こうした問題を引き起こしているのは個々の利用者だ
本当に役立つ機能は、編集ガイドラインを尋ねられるチャットボットだと思う
現状では、経験豊富な編集者ですら議論ページでルールを勝手に解釈している
「とりあえず差し戻して後から理由を付ける」という文化は初心者にとって大きな障壁になる
こういう部分はボットが即座に反論できるかもしれない
別の問題は、Grokipedia のような AI ベースのウィキだ
見た目はウィキペディアより洗練されていてモバイル向けだが、意図的に歪められた情報を含んでいる
一部の巨大企業や政治勢力が民主的な情報源を弱体化させようとしているのかもしれない
ウィキペディアがこうした攻撃の標的にならないよう注意すべきだ
AI スパムが品質を落としているのは確かだが、根本的にはウィキペディアの品質管理の問題だ
レビュー過程は遅く、新しい情報が正しいことの保証もない
AI スパムが消えても品質管理が改善されなければ意味がない
ウィキペディアは平均的な読者の水準に合わせて明確に説明する方向で、品質管理の仕組みを立て直すべきだ

生成AIとウィキペディア編集：2025年に学んだこと

生成AIとウィキペディアの関係

AI検知と検証結果

プログラム改善とAI検知システム

AI利用行動と教育効果

AIの前向きな活用可能性

Wiki Educationの結論と今後の計画

ウィキペディア全体への示唆

関連記事

1件のコメント

Hacker News の意見