- Low-background Steel サイトは、AI生成コンテンツに汚染されていない資料を集める役割を果たす
- このプロジェクトは、2022年の大規模なAIコンテンツ拡散以前に作成されたテキスト、画像、動画資料に焦点を当てる
- Wikipedia、Arctic Code Vault、Project Gutenberg など、代表的な提供元を案内している
- サイト訪問者が新たな非汚染資料を投稿することもできる
- 核実験以前のクリーンな金属という概念から着想を得たこの発想は、信頼性と原本性の維持に重点を置いている
紹介
- Low-background Steel は、AIが作ったコンテンツに汚染されていないオンラインリソースを集めるウェブサイトである
- このサイト名は、核実験以前に製造され、放射能汚染のない金属である Low-background Steel(および Lead)に由来する
- 核実験(Trinity Test)以前に沈没した船から採取される金属は、放射能汚染がほとんどないため貴重とされる
- そこから発想を得て、AI生成物が急増する以前に生み出された純粋なデジタルコンテンツを保存し案内しようという趣旨である
目的と背景
- 2022年の大規模なAIベース生成コンテンツの登場以前に作られたテキスト、画像、動画など、さまざまな原本形態の資料確保に重点を置く
- こうした資料には、Wikipedia の完全ダンプ、Arctic Code Vault、Project Gutenberg など、信頼できる代表的なオープンソースデータベースが含まれる
- サイト利用者は、新たな非汚染資料を投稿フォームを通じて直接追加できる
サイトの重要性
- AI生成物が急増する時代において、原本性の保存と信頼できる情報の確保が重要になっている
- Low-background Steel は、情報汚染を心配せずに活用できるクリーンなデータリファレンスの提供を目標としている
貢献方法
- 誰でも新しい Non-contaminated コンテンツソースをサイトの submit 機能で追加提案できる
参考
- サイトの趣旨をよく反映した Wikipedia の Low-background Steel に関する説明へのリンクがある
- このプロジェクトは2023年3月に開設され、実質的にオンラインコンテンツ保存のための実験的ハブとしての役割を果たしている
1件のコメント
Hacker Newsの意見
Unicodeに新しい「plane」を追加して、すべての有用な文字を鏡写しのように複製し、そこへ追加の状態ビットを付けて区別するという発想に興味を引かれた
たとえば「人間が直接書いた成果物」領域ではAI生成テキストを使ったら即罰則、「人間にのみ公開」領域ではAIによる学習やアクセスまで禁止、「AIが生成したことを認める」範囲ではすべてのAI出力を必ずその文字範囲で扱う、といった想像をした
もちろんこれらの文字は視覚的には区別しにくく、ソフトウェアを通して初めて見分けられるので、微妙なチャネル機能を果たす
テキストをコピー&ペーストしても、元の情報が小さな文字エンコーディングの違いとして一緒に移動する
ほとんど冗談ではあるが、こういう仕組みには興味がある
まるでオーガニック食品のように、100%人間が書いた「オーガニック」コンテンツにプレミアム価値が生まれると思う
「AIが生成したテキスト」の基準が曖昧だと感じ、具体例を挙げる
Unicodeにはもともと、言語領域を示すためのタグ文字(visible tag character)が存在したが、より高レベルのマークアップ(HTMLなど)に押され、今では廃止されている
この法律が施行されたら、12ミリ秒でインドに「タイピング工場」ができて、人間がAIの出力を書き写してデータ洗浄に使われるだろう
たとえば外国語で文章を書いたあと、ChatGPTに英訳を頼んだ場合、それをAI生成物とみなすのか疑問だ
AI成果物は本質的に平均への回帰を起こすと主張する
こうした内容は人間が直接尋ねて得られる情報だという見方
すべてのAI生成物に <AI generated content> タグだけ付ければよく、それ以外は公益より公害に近いと見る
この論理に従えば、そもそも何かを書く必要自体がないという結論になる
こうした直感的な信念には、かつては多少の実験的証拠もあったが
人間の専門家の名前がかかった検証とキュレーションの過程そのものにも大きな価値がある
AIで編集したり文体を変えたりした文章も、結局は人間が書いたものと見なせるのか気になる
ナンセンスだと思う
この記事で使われている用語は、懸念を過小評価するよう絶妙に選ばれていると思う
核実験の終了以降、放射線レベルは自然値にほぼ近づき、新しい低バックグラウンド鋼(steel)の必要性は減り、新しい鋼材でも放射線信号が十分弱いため大半の用途に使える
とはいえ、「汚染されていない」データが必須だとは思わない
核実験をやめたからこそ、バックグラウンド放射線が減ったというのは事実だ
この問題は、大衆が想像するほど深刻にはならないと思う
長期的にはAIは実体験から学ぶようになり、無限の非著作物学習データが得られ、AI汚染の問題も回避できると主張する
現実にはAIのハルシネーション(hallucinations/事実の歪曲)が引用され、真実として定着しがちだ
実体験データ(例: 車両修理)は、生成そのものにコストと危険が伴う
YouTubeには実際の自動車修理の体験データがあふれているが、著作権の問題がある
長期的にAGIが必要だと見ているのか疑問だ
予想するに、汎用知能を備えたヒューマノイドロボットが登場するまでは、車を修理するAIシステムは実現しないだろう
現時点では、「AI汚染」が実際にAI訓練に問題を起こしているという証拠はない
2022年以前の公開データで訓練したAIが、2022年以降のデータで訓練したAIより目に見えて優れているわけではない
むしろ最近のデータの方が少し良い場合すらある
「low background steel」という比喩に込められた考え方は、合成データで繰り返し学習するとAIモデルが完全に無意味になる「モデル崩壊(model collapse)」が起きる、というものだ
上の主張は、いくつかの理由で合理的ではない
まだ本格的にAI汚染の「カス」が大量に流れ込んではおらず、今後急増すると見ている
一部にはAIコンテンツにそれほど抵抗がなく、low-background steelの比喩を非常に優れた着想だと評価する人もいる
私もAIコンテンツへの抵抗はあまりなく、実際に関連サイトを作ったこともある
個人的にはAIフォビアというより、AIが自分の成果物をまた学習する現象を防ぎたい意図が大きい
今日の私の考えが、驚くほど予見的だったように思える
私の過去コメント
少なくとも1年前、あるいはそれより前に、Hacker Newsでこの例を見たことがある
ChatGPTの公開以降、よく使われてきた比喩だった
AI「汚染」のないコンテンツというフレーミングもすでに見たことはあったが、「low background steel」をそれになぞらえて使ったのはかなり新鮮な一撃だと思う
私の考えは違う
low-background analogyの面白さには共感する
この比喩が本当に説得力を持つのか疑問だ
low-background steelは実際、新たに作るのがほぼ不可能に近いが、AI-freeコンテンツはただAIを使わなければよいだけで難易度は低い
実際には、ある成果物がAI-freeであることを客観的に証明するのはほぼ不可能なので、本人以外は誰も確信できない
誰が、何のために、どんな金をかけてAI-freeコンテンツを作るのかと問いたい
クリックベイト的なタイトルにすぎないと思う
このサイト名がY combinatorに由来することに着想を得て、関数の不動点(fixed point)を見つけることを推論モデルの要件として挙げる
AIに偏ったデータ生成が増えても、元の人間のコンテンツと派生コンテンツ、さらにその派生の派生といった複数段階が混ざって訓練されても、本質的特徴は引き続き抽出可能だろうと期待する