AIに汚染されていないコンテンツのためのLow-background Steel

(blog.jgc.org)

1 ポイント投稿者 GN⁺ 2025-06-11 | 1件のコメント | WhatsAppで共有

AI生成物がWebに大量に混ざる前の資料を探すために、lowbackgroundsteel.ai が2023年3月に作られた
名称は、核実験の放射性同位体に汚染されていない 低放射能の鋼鉄と鉛 に由来する比喩
実際の low-background steel と鉛は、通常1945年の Trinity Test以前 に沈没した船舶から回収された金属を指す
サイトは、2022年にAI生成コンテンツが急増する前に作られた テキスト・画像・映像 の出典を集めることに焦点を当てている
ChatGPT公開以前の Wikipediaダンプ、Arctic Code Vault、Project Gutenberg のような資料へリンクし、そのほかの未汚染の出典も募集している

AI以前の資料を集めるハブ

lowbackgroundsteel.ai は、AI生成コンテンツが混ざっていないオンライン資料を集めるために作られた 資料ハブ
2023年3月に始まり、AI生成物が拡散する前のオンラインリソースを整理する役割を果たしている

名前に込められた比喩

Low-background Steel は、核実験によって生じた 放射性同位体 に汚染されていない金属を意味する
このような鋼鉄や鉛は、通常1945年の Trinity Test 以前に沈没した船舶から回収される
サイトはこの概念をコンテンツに適用し、AI生成コンテンツに汚染されていない資料を Low-background Steel と呼んでいる

収集対象と例

収集対象は、2022年にAI生成コンテンツが急激に増える前に作られた テキスト、画像、映像 の出典
現在リンクされている例は次のとおり
- ChatGPT公開以前の Wikipediaダンプ
- Arctic Code Vault
- Project Gutenberg
  - そのほかの追加資料の出典

資料の提出

AI生成コンテンツに汚染されていない別の出典を知っているなら、提出ページから送ることができる

1件のコメント

GN⁺ 2025-06-11

Hacker Newsのコメント

Unicodeに新しい**面（plane）**を追加して、コミュニケーションに必要なすべての文字を複製しつつ、追加の状態ビットを入れればよいと思う
確実に人間が書いたもの、人間の目専用、AI生成であることを認めるといった範囲を設け、それを破ったら刑務所に送る、というやり方だ
もちろんすべての範囲は見た目では区別できない同形文字なので、公正な開示のためのソフトウェア媒介の準隠れチャネルになる
複数の出典からコピー＆ペーストしても、微妙な文字エンコーディングの違いで出典情報が付いて回る。冗談はほぼ1に近い割合でしか言っていない
- 食品のように、完全なオーガニックコンテンツにも市場価値が生まれるはずだ
  人間が書き、描き、作曲し、編集し、キュレーションしたコンテンツという意味だ
  ただし食品と同じく、許容範囲を定義するのは悪夢で、オーガニックであることを証明するのは難しく、認証は信頼の網に依存し、実際には避けようとしていたものに汚染され、さらに悪いという証拠があっても、より高い値段を取れる場合がある
- Unicodeにはもともと、テキストの一部が別の言語から来たことを示すために作られたTag Characters範囲がある
  この用途はHTMLタグのような上位レベルの表記に置き換えられて廃止されたが、文字自体はまだ存在する
  見えず、連続したタグ文字がカーソル移動では1つの文字のように振る舞う点が特徴的だ
  ASCIIを反映しているので、任意のJSONや他のデータをその中にエンコードできる。隠しデータや廃止された使い方で人々をいら立たせても構わないなら、LLM生成区間の表示にもかなり適している
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- AI生成をどう定義するかが問題だ
  宿題を例にすると、学生がすべてペンと紙で自分で書く場合と、AIに全部書かせる場合は明確だが、オンライン百科事典で調べたところその百科事典がAIで答える場合、AIから文章構成・要点・結論だけを受け取る場合、自分で書いた後に誤字脱字・文法・文体の改善だけをAIに任せる場合は曖昧だ
  さらに、複数のテーマの文章を自分で書いた後、AIに最良の文章を選ばせる場合もある
- こんな法律が施行されて12ミリ秒後にはインドにタイピング工場ができ、人間の作業者がAI由来のテキストを手で書き写して「データロンダリング」をするようになるだろう
- 外国語で書いた文章をChatGPTに英語へ翻訳させたら、AI生成コンテンツなのか
  紙に書いた文章をLLMでOCRしたらどうなのか
  非常に詳細なアウトラインを与え、何度も書き直させながら、確かでない事実を容赦なく取り除かせたらどうなのか
  文法だけを直し、下手な英語をきちんとした科学的文体に変えるためだけにAIを使ったらどうなのか
  こうした場合はいずれも、最終結果がLLMからコピー＆ペーストされた形であっても、答えは明らかに「いいえ」だと思う
AI生成コンテンツは本質的に平均への回帰であり、学習にも人間の効用にも有害だ
AIが生成できるものをわざわざ公開する利点はなく、ただ直接質問すればよい
AIコンテンツはタグを付けて公開することはできるかもしれないが、それ以外では公益より公害に近い場合のほうがはるかに多い
- その理屈なら、そもそもなぜ何かを書く必要があるのか
  Shakespeareのソネットも、すでに存在していた単語の配列であり、あらゆる数学の証明・小説・ジャーナリズムも、可能な記号配列空間の中の1つの構成にすぎない
  何かが生成可能だったという事実は、特定の目的・文脈・読者のために生成されたときの価値を否定しない
- 数年前までは直感的にもっともらしく、限定的な実験的根拠もあった信念だった
  しかしその後、よくキュレーションされたAI生成物から複数の能力のブレイクスルーが出てきたことで、その考えは決定的に反証されたと思う
- AIが修正したり校正したりしたコンテンツはどう考えるべきか
  最近のブログ記事は音声メモで口述し、文字起こしした後でCGPTやClaudeに入れてトーンとリズムを整えさせている
- 直接質問すると、人間の専門家が内容を検討し、名前を出して保証する段階がない
  そのキュレーションと保証には価値がある
  もちろん「その人たちが本当にそんなことをするのか？」とすぐに思い浮かぶし、同意するが、AI以前にも概してそんなことは起きていなかった
  インターネットコンテンツの大多数は、すでに低賃金の書き手が専門性なしに急いで量産した低品質な文章であり、AIがその点を変えるわけではない
- あり得ない
  deep researchツールを使ったことがあるのか
  ユートピアの誤謬に陥ってはいけない
  人間もゴミのような文章を公開する
人々が考えているほど大きな問題になるのかは確信が持てない
長期的には、AIに自動車修理マニュアルを読ませる代わりに、実際に車を直すような実体験から学ばせることが目標になるはず
そうすれば、著作権のない学習データを無制限に得られ、AIに汚染された学習データの問題も自然に回避できる
- ハルシネーションが引用され、最終的に事実のように出典が付くのが問題
  例えば「Connect Fourが内蔵されたMS-DOSの生産性プログラムは何か？」と聞けばよい
  MSDOSエミュレータもあり、正解も分かっているが、少し obscure な質問だからか、AIごとに毎回違う答えを出し、正解を出したのは見たことがない
  もう一度本当に確かかと聞くと、意見を変える
  こうした答えがオンラインで引用され、さらにAIがその循環参照を出典として学習すると、その時点で真実は消えてしまう
  実際に上の質問をしてみると、AIが完全にでっち上げた答えを権威ありげに繰り返す格好の例になる
- 実体験で直接データを生成しなければならないというのは非常に高くつき、データ取得に実際の運用リスクが伴うという意味にもなり得る
  Waymoは実際の道路で車を走らせて経験を得ているが、単位時間あたりに得られるデータの限界は車両規模に依存し、現実で走行しても安全な水準の能力にまず到達しなければならない
  自動車修理をするのに、オンポリシーのロールアウト以外の知識なしで始めるなら、かなりの期間、多くの車を壊しながら学ぶことになり、ロボットが失敗したことを教えてくれる人間にも費用を払わなければならない
  整備士にマニュアルを読ませ、明示的な訓練を受けてほしい理由はあり、このコストの論理は整備士が人間でもAIでも同じように当てはまる
  オフポリシー強化学習を使うとしても、そのデータが前世代モデルのデモンストレーションなら、依然としてAI汚染学習データである
- YouTubeには実際の自動車修理経験を含む学習データが膨大にあるが、すべて著作権がある
  AI企業が学習前にこのコンテンツをライセンスすべきかどうかは論争の的である
- 汎用知能が可能なヒューマノイドロボットが登場するまでは、自動車を修理するAIシステムも存在しないと思う
  そうしたロボットが登場するまでは、5つ星ホテルのAIメイドも存在しないだろう
  元の発言が間違っているという意味ではないが、今日からその時点までの隔たりが想像もできないほど大きいので、「AIのゴミが言語の単語頻度データベースを汚染することは心配するな、いつか解決する」という話は少し的外れに感じる
- 長期的にはAGIが欲しいという意味なのか
  AGIが出てくればスパムも良くなるということなのか
  https://xkcd.com/810/
選ばれた用語が、懸念を無関係に見せるように非常に巧妙に選ばれている点が気に入った
大気圏内核実験の終了後、背景放射線が自然レベルに近づき、新しい鋼鉄でも放射性シグナルが十分に低くなったため、ほとんどの放射線に敏感な用途では特殊な低バックグラウンド鋼がもはや不要になった、という説明に似ている
しかし「汚染されていない」データが必要だとも、そうしたデータを見つけるのが難しいとも、LLMの出力がいずれにせよすべてを感染させるとも思えない
LLMデータは自然背景のRedditコメントより少しましですらあるかもしれないし、archive.orgやGutenbergのような場所もある
- しかし最近の汚染されていないデータは見つけにくい
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- うーん……背景放射線が減ったのは、私たちが核実験をやめたからである
現時点では、AI汚染がAI学習の実行における実質的な問題だと信じる理由はない
2022年以前の公開クロールデータで学習したAIが、2022年以降のクロールデータで学習したAIより目に見えて優れているわけではない
むしろ一部の場合には、理由は分からないが、最新のクロールデータのほうがトークンあたりの性能がわずかに良い
- 「低バックグラウンド鋼」という発想の背後には、合成データでAIを学習すると、AIが完全におかしくなって使い物にならなくなるモデル崩壊につながり得るという考えがある
  そうしたことは起きなかったか、すべてのAI企業が内部的にAIデータを選別する機能するフィルターを持っているかのどちらかである
  前者に賭ける
  ただし、AI生成データに過度にさらされると、人間にモデル崩壊のようなことが起きる可能性はあると思うが、それは逸話的な観察と直感に近い
- この推論は、いくつもの理由でかなり悪い
  2022年以降、LLMの学習ははるかに良くなっており、学習データに混じるAIのゴミがもたらす悪影響が、パラメータ規模の増加やより良い学習手法の利得を上回らないからといって、悪影響がないという意味にはならない
  「性能が良い」というのも非常にゆるい表現であり、それを意味のある形で測定する良い答えもまだない
  Gemini 2.5がGPT-4oより優れていることは分かるが、Gemini 2.5とClaude 4の間を区別するのはもっと難しい
  現段階でのゴミデータの効果量は、同世代モデル間の小さな差程度である可能性が高い
  データで証明するのが難しいほど小さな効果を探している状況なら、この場合は第一原理から出発するのが妥当であり、第一原理はAI生成コンテンツで学習しないほうがよいとはっきり示している
- まだ人々は本格的にゴミコンテンツを生成し始めておらず、今後ははるかに増えると思う
AIコンテンツにそれほどアレルギーがあるわけではないが、低バックグラウンド鋼の比喩には感嘆する
見事だ
- 自分もAIコンテンツにアレルギーがあるわけではない
  このサイトを作った理由は、人間が作ったと分かっているものを追跡するためだった
- これは恐怖症というより、AIを自分自身の出力で学習させることを避けようとする話に近いように見える
  最近、同僚たちとも話していたテーマだ
  AI以前のコンテンツは今後ますます貴重になるほかない。二度と作れないものだからだ
  理想的には、2015年ごろに利用可能だったすべてのデータに暗号学的タイムスタンプを付けておくべきだったが、今は今ある状況でやるしかない
今日は妙に予言者になった気分だ
https://news.ycombinator.com/item?id=44217676
- この例はHacker Newsで少なくとも1年前、おそらくそれよりずっと前に聞いた
  2年前の投稿もある: https://news.ycombinator.com/item?id=34085194
- この比喩はChatGPTのリリース以降、よくある比喩だった
- その考えは本当に間違っていると思う
  コンテンツと合成データに注釈を付ける過程は、AIの出力を将来の出力をより良くするための勾配に変えるはずだ
  LLMの出力ではそれほど明白でないかもしれないが、画像や動画モデルでは非常にはっきりするはずだ
  システムの最良の視覚出力を選び出す過程で、持ち込まれた小さな誤りや好みに基づくキュレーションが、システムをより高い性能とより高い汎用性へ導くはずだ
  ゲノムを合成機械、物理を確率的勾配と見なすなら、生命と遺伝があらゆる生態的ニッチに適応するのと変わらない
  私たちは同じことを高速で回しているわけだ
- よくやった
  AI「汚染」のないコンテンツというフレーミングは以前にも聞いた気がするし、すでに出回っていたアイデアだったと思う
  ただし、低バックグラウンド鋼の比喩が適切だという点については、成功した予測だったと気楽に主張していい
古本、特に「reading copies」や「ex-library」と呼ばれる、古いが実用には耐える本が古本市場で捨て値で売られている
基本的な参考書を含め、自分だけの物理的な図書館を作り、地域の公共図書館や大学図書館を支援することを勧める
専門分野や関心分野の論文も紙のコピーでそろえておくとよい
先人たちのやり方に従えということだ
AIが事実について堂々と嘘をついたことがあり、あらゆる場合にAIを説得できたわけではないにせよ、自分が正しいことを自分で確認できる物理的な図書館があって幸いだった
この比喩はうまく当てはまるのか
新しい低バックグラウンド鋼を作るのは、放射性粒子がどこにでもあるため極めて難しいが、AIなしのコンテンツを作るのは難しくない
ただAIで書かなければいい
- ある作品にAIが含まれていないと証明するのは、不可能でないとしてもまったく現実的ではない
  だから本人以外には誰も確信できない
- 新しい低バックグラウンド鋼を作るのが難しいわけではない
  回収して使うほうが安いからだ
- 誰が、何の理由で、どんな資金でそんなAIなしのコンテンツを作るのか
- ただの釣りタイトルにすぎない
このサイト名自体がY combinatorに由来している
多少の哲学的な身振りを除けば、推論モデルに求めるべき能力の一つは、コンテンツを入力として受け取り、コンテンツを出力し、さらにそのコンテンツを消費する関数の固定点を見つける能力だ
元の人間のコンテンツ、元のコンテンツから派生したコンテンツ、さらにその派生コンテンツから派生したコンテンツが混在するデータを再帰的に学習しても、基盤となるシステムの顕著な特徴やパターンを抽出できるだろうと楽観している

AIに汚染されていないコンテンツのためのLow-background Steel

AI以前の資料を集めるハブ

名前に込められた比喩

収集対象と例

Arctic Code Vault

Project Gutenberg

資料の提出

関連記事

1件のコメント

Hacker Newsのコメント