1 ポイント 投稿者 GN⁺ 2025-06-11 | 1件のコメント | WhatsAppで共有
  • Low-background Steel サイトは、AI生成コンテンツに汚染されていない資料を集める役割を果たす
  • このプロジェクトは、2022年の大規模なAIコンテンツ拡散以前に作成されたテキスト、画像、動画資料に焦点を当てる
  • Wikipedia、Arctic Code Vault、Project Gutenberg など、代表的な提供元を案内している
  • サイト訪問者が新たな非汚染資料を投稿することもできる
  • 核実験以前のクリーンな金属という概念から着想を得たこの発想は、信頼性と原本性の維持に重点を置いている

紹介

  • Low-background Steel は、AIが作ったコンテンツに汚染されていないオンラインリソースを集めるウェブサイトである
  • このサイト名は、核実験以前に製造され、放射能汚染のない金属である Low-background Steel(および Lead)に由来する
  • 核実験(Trinity Test)以前に沈没した船から採取される金属は、放射能汚染がほとんどないため貴重とされる
  • そこから発想を得て、AI生成物が急増する以前に生み出された純粋なデジタルコンテンツを保存し案内しようという趣旨である

目的と背景

  • 2022年の大規模なAIベース生成コンテンツの登場以前に作られたテキスト、画像、動画など、さまざまな原本形態の資料確保に重点を置く
  • こうした資料には、Wikipedia の完全ダンプ、Arctic Code Vault、Project Gutenberg など、信頼できる代表的なオープンソースデータベースが含まれる
  • サイト利用者は、新たな非汚染資料を投稿フォームを通じて直接追加できる

サイトの重要性

  • AI生成物が急増する時代において、原本性の保存と信頼できる情報の確保が重要になっている
  • Low-background Steel は、情報汚染を心配せずに活用できるクリーンなデータリファレンスの提供を目標としている

貢献方法

  • 誰でも新しい Non-contaminated コンテンツソースをサイトの submit 機能で追加提案できる

参考

  • サイトの趣旨をよく反映した Wikipedia の Low-background Steel に関する説明へのリンクがある
  • このプロジェクトは2023年3月に開設され、実質的にオンラインコンテンツ保存のための実験的ハブとしての役割を果たしている

1件のコメント

 
GN⁺ 2025-06-11
Hacker Newsの意見
  • Unicodeに新しい「plane」を追加して、すべての有用な文字を鏡写しのように複製し、そこへ追加の状態ビットを付けて区別するという発想に興味を引かれた

    • たとえば「人間が直接書いた成果物」領域ではAI生成テキストを使ったら即罰則、「人間にのみ公開」領域ではAIによる学習やアクセスまで禁止、「AIが生成したことを認める」範囲ではすべてのAI出力を必ずその文字範囲で扱う、といった想像をした

    • もちろんこれらの文字は視覚的には区別しにくく、ソフトウェアを通して初めて見分けられるので、微妙なチャネル機能を果たす

    • テキストをコピー&ペーストしても、元の情報が小さな文字エンコーディングの違いとして一緒に移動する

    • ほとんど冗談ではあるが、こういう仕組みには興味がある

    • まるでオーガニック食品のように、100%人間が書いた「オーガニック」コンテンツにプレミアム価値が生まれると思う

      • ただし食品業界と同じく、実際に何が許容され、どこまでがオーガニックなのかを決めるのは悪夢だ
      • 認証は信頼ネットワークに依存し、結局はAI成果物が汚染されたままでも高値で取引されうる
    • 「AIが生成したテキスト」の基準が曖昧だと感じ、具体例を挙げる

        1. 学生が自分で手書きした
        1. オンライン百科事典を参照したが、その百科事典が内部的にAIを使っている
        1. AIに論文の構成、要点、結論を組み立ててもらって自分で執筆した
        1. 自分が書いた文章をAIにスペルチェック、文の修正、スタイル調整だけ任せた
        1. AIが全文を代筆した
        1. 複数本を自分で書いたあと、AIに最高作を選ばせた
      • 1番目と最後は明確だが、残りはどこまでAI成果物とみなすのか迷う
    • Unicodeにはもともと、言語領域を示すためのタグ文字(visible tag character)が存在したが、より高レベルのマークアップ(HTMLなど)に押され、今では廃止されている

      • この文字は見えず、カーソル移動時には複数個が1文字のように扱われる
      • ASCIIに対応しており、任意のJSONやデータを埋め込める
      • LLMが生成した領域を示すのに使えるが、下手をすると隠しデータや非推奨用途になってしまう不快さがあるかもしれない
      • 関連リンク: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • この法律が施行されたら、12ミリ秒でインドに「タイピング工場」ができて、人間がAIの出力を書き写してデータ洗浄に使われるだろう

    • たとえば外国語で文章を書いたあと、ChatGPTに英訳を頼んだ場合、それをAI生成物とみなすのか疑問だ

      • 手書きしたあとLLMでOCRをかけた場合、非常に詳細なアウトラインをAIに与えつつ事実確認は厳密に行った場合はどうか
      • AIを文法チェックや科学的表現の補正にしか使わなかったなら、これもAI生成物なのか
      • 私の基準では、どれも「いいえ」だと思う
  • AI成果物は本質的に平均への回帰を起こすと主張する

    • こうした内容は人間が直接尋ねて得られる情報だという見方

    • すべてのAI生成物に <AI generated content> タグだけ付ければよく、それ以外は公益より公害に近いと見る

    • この論理に従えば、そもそも何かを書く必要自体がないという結論になる

      • シェイクスピアも数学的証明も、あらゆる小説や報道も、所詮は可能な単語の組み合わせにすぎない
      • 何かが単に「生成可能」だという点ではなく、特定の目的・状況・読者のために作られたという点に十分な価値があると思う
    • こうした直感的な信念には、かつては多少の実験的証拠もあったが

      • 最近は、うまくキュレーションされたAI成果物が革新的なブレークスルーを生み出しており、もはやその主張は事実ではないと分かった
    • 人間の専門家の名前がかかった検証とキュレーションの過程そのものにも大きな価値がある

      • 実際にはインターネット上のコンテンツの大半は、もともと専門家ではない低賃金・低品質なものだったので、AIがそれをさらに悪化させるとは思わない
    • AIで編集したり文体を変えたりした文章も、結局は人間が書いたものと見なせるのか気になる

      • 私の場合、ノートにブログ記事を音声で吹き込み、それをCGPTやClaudeでトーンやリズムを整えて仕上げている
    • ナンセンスだと思う

      • 実際にディープリサーチツールを使った経験があれば、人間も価値のないコンテンツを大量に作ることが分かる
      • ユートピア的な誤解に陥らないでほしい
  • この記事で使われている用語は、懸念を過小評価するよう絶妙に選ばれていると思う

    • 核実験の終了以降、放射線レベルは自然値にほぼ近づき、新しい低バックグラウンド鋼(steel)の必要性は減り、新しい鋼材でも放射線信号が十分弱いため大半の用途に使える

    • とはいえ、「汚染されていない」データが必須だとは思わない

      • LLMのデータは、普通のredditコメントよりはるかに良いと感じる
      • archive.orgやgutenbergなどを使えば「純粋な」データは今でも容易に見つかると思う
      • LLMの出力はいずれどこにでも浸透するので、避けられない流れだ
    • 核実験をやめたからこそ、バックグラウンド放射線が減ったというのは事実だ

  • この問題は、大衆が想像するほど深刻にはならないと思う

    • 長期的にはAIは実体験から学ぶようになり、無限の非著作物学習データが得られ、AI汚染の問題も回避できると主張する

    • 現実にはAIのハルシネーション(hallucinations/事実の歪曲)が引用され、真実として定着しがちだ

      • 例: 「MS-DOS用connect four内蔵の生産性プログラムは何だったか?」という質問を実際にAIへ何度も投げると、毎回違うがどれも間違った答えしか返さなかった
      • その誤情報がまたWeb上で引用され、AIがその誤った情報を学習する循環が生まれる
      • こういう状況では真実を知るのが難しい
    • 実体験データ(例: 車両修理)は、生成そのものにコストと危険が伴う

      • 人間の整備士のように、AIもマニュアルと明示的な教育課程を出発点にしなければならない
      • もし実際の作業データだけで学習するなら、試行錯誤で車を壊すことになり、その過程でも人間の介入が必要だ
      • オフポリシー強化学習(RL)であっても、そのデータ自体が前世代モデル、つまりAIが作ったものから来ている可能性があり、完全に「AI汚染フリー」とは言えない
      • したがって実体験だけでは、供給制約やコスト、AI汚染の問題を完全には解決できない
    • YouTubeには実際の自動車修理の体験データがあふれているが、著作権の問題がある

      • AI企業がそのコンテンツを使う前に著作権ライセンスを得る必要があるのかが論争になっている
    • 長期的にAGIが必要だと見ているのか疑問だ

      • AGIが登場したあとにはスパムコンテンツの質も上がる、という論調には疑問がある
      • 関連xkcd: https://xkcd.com/810/
    • 予想するに、汎用知能を備えたヒューマノイドロボットが登場するまでは、車を修理するAIシステムは実現しないだろう

      • 5つ星ホテルでAIメイドが登場するのも同様だ
      • だから言語データベースの汚染問題も、時間がたてば解決するという見方はやや非現実的だと思う
  • 現時点では、「AI汚染」が実際にAI訓練に問題を起こしているという証拠はない

    • 2022年以前の公開データで訓練したAIが、2022年以降のデータで訓練したAIより目に見えて優れているわけではない

    • むしろ最近のデータの方が少し良い場合すらある

    • 「low background steel」という比喩に込められた考え方は、合成データで繰り返し学習するとAIモデルが完全に無意味になる「モデル崩壊(model collapse)」が起きる、というものだ

      • 実際にはその現象も起きておらず、AI企業が内部でAIデータだけを切り分けて除去するフィルタを運用しているようにも見えない
      • むしろ人間がAIデータに過剰にさらされた場合、モデル崩壊が起きるのは人間の側かもしれないと思う
      • これはあくまで私の経験と直感だ
    • 上の主張は、いくつかの理由で合理的ではない

        1. 2022年以降、LLMの訓練手法が飛躍的に改善されたため、データ中のAIの「カス」の悪影響が目立つほど大きくないだけかもしれない
        1. 性能評価は曖昧で、同世代モデル(Gemini 2.5 vs Claude 4 など)間の微細な差としてしか現れない
      • こうした小さな効果はデータで立証しにくく、だからこそ原則的なアプローチが重要だ
      • 原則としては、AI生成物の学習は避けるのが望ましい
    • まだ本格的にAI汚染の「カス」が大量に流れ込んではおらず、今後急増すると見ている

  • 一部にはAIコンテンツにそれほど抵抗がなく、low-background steelの比喩を非常に優れた着想だと評価する人もいる

    • 私もAIコンテンツへの抵抗はあまりなく、実際に関連サイトを作ったこともある

      • 目的は、確実に人間が作ったと分かっている資料を記録することだ
    • 個人的にはAIフォビアというより、AIが自分の成果物をまた学習する現象を防ぎたい意図が大きい

      • 「pre-AI」時代のコンテンツは、もはや新たに生成できない、それ自体が増していく希少性を持つ
      • もし2015年ごろにすべてのデータへ暗号学的タイムスタンプを打っておけていたらもっと良かったが、今からでも残っているものを大切にすべきだ
  • 今日の私の考えが、驚くほど予見的だったように思える

    • 私の過去コメント

    • 少なくとも1年前、あるいはそれより前に、Hacker Newsでこの例を見たことがある

    • ChatGPTの公開以降、よく使われてきた比喩だった

    • AI「汚染」のないコンテンツというフレーミングもすでに見たことはあったが、「low background steel」をそれになぞらえて使ったのはかなり新鮮な一撃だと思う

    • 私の考えは違う

      • 私たちはコンテンツや合成データに注釈を付け、機械がそれを活用して未来の出力が徐々に良くなっていくと信じている
      • LLMだけではその効果が目立たなくても、画像・動画モデルでは明らかだ
      • 最も優れた視覚的出力だけを厳選することで結果は少しずつ向上し、その過程では「好みに合ったキュレーション」も大きな役割を果たす
      • 遺伝学や生物学で多様な生態学的ニッチに適用されるのと同じように、私たちは合成マシンによってゲームのルールを急速に進化させている
  • low-background analogyの面白さには共感する

  • この比喩が本当に説得力を持つのか疑問だ

    • low-background steelは実際、新たに作るのがほぼ不可能に近いが、AI-freeコンテンツはただAIを使わなければよいだけで難易度は低い

    • 実際には、ある成果物がAI-freeであることを客観的に証明するのはほぼ不可能なので、本人以外は誰も確信できない

    • 誰が、何のために、どんな金をかけてAI-freeコンテンツを作るのかと問いたい

    • クリックベイト的なタイトルにすぎないと思う

  • このサイト名がY combinatorに由来することに着想を得て、関数の不動点(fixed point)を見つけることを推論モデルの要件として挙げる

    • あるコンテンツが自分自身を変換し、その結果を再び入力にして、本質的なパターンを引き続き抽出していくという楽観的な態度
  • AIに偏ったデータ生成が増えても、元の人間のコンテンツと派生コンテンツ、さらにその派生の派生といった複数段階が混ざって訓練されても、本質的特徴は引き続き抽出可能だろうと期待する