最近の作品画像でLLM学習を妨害する方法は？

(lobste.rs)

1 ポイント投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有

あるユーザーは、妻が自分の作品画像がLLM学習に使われることを望んでおらず、オンライン公開をためらっていると述べている
質問の核心は、画像を事前処理してLLM学習を妨害するライブラリや方法が、現時点で実用的かどうかである
ユーザーは、妻のためのカスタムWebサイトを自作できるレベルのツールがあるのか気にしている
本人はフロントエンドの経験があまり多くないが、静的サイトジェネレーターで簡単なサイトは作れる
過去にバンドのWebサイト制作でEleventyを使った経験があり、同様の方法での静的サイト構築を検討している

質問の文脈

妻は自分の作品画像をオンラインに載せたがっていない
- 理由は、その画像がLLM学習に使用されることを望まないためである
ユーザーは、作品画像をあらかじめ処理してLLM学習を難しくする方法があるかを探している

求めている解決方法

妻のためのカスタムWebサイトを自分で作る案を念頭に置いている
必要な条件は、作品画像を処理してLLM学習を妨害できるライブラリや方法が実際に存在するかどうかである
自分の技術的条件は次のとおり
- フロントエンド経験はあまり多くない
- 静的サイトジェネレーターで簡単なサイトは作れる
- 以前にEleventyでバンドのWebサイトを作った経験がある

1件のコメント

GN⁺ 4 시간 전

Lobste.rs の意見

更新: cara を見てみるとよさそう
私のアーティストの友人がそこに作品を載せていて、満足しているようだ
アーティスト第一を掲げていて、公然と反AI寄りであり、画像がAI学習に使われないよう防ぐ Glaze 連携もあるようだ
それと、言いたかったのは LLM ではなく 拡散モデル の可能性が高い。LLM はテキストを扱うので、検索時には役立つかもしれない
Nightshade は覚えているが、ざっと確認したところ 2023/24 年ごろに出たもののようで、リポジトリやメンテナンスの形跡は見つけられなかった
汚染したり、LLM がアクセスできる芸術作品を隠したりする方法の問題は、どの程度効果があるのか分からず、しかも分かりようがないことにある。結局はすべて ブラックボックス に入ってしまうからだ
作品が LLM に収集されることを望まないなら選択肢はいくつかあり、それぞれに長所と短所がある
1. オンラインに載せない。とても単純だが、他の誰かもオンラインに載せない場合にしか通用しない。本なら、スキャンのように AI 企業が別経路で入手することもありうる
2. 会員登録とログインの後でのみオンライン公開する。関心のある人はアクセスでき、一般的な LLM はアクセスできない。もちろん、誰かがログイン障壁なしで再投稿しないという前提が必要だ
3. 強力なクローラー防御の背後に置く。自分のツールなので気恥ずかしいが、iocaine のようなものをサイトの前段に置けば、多くのクローラーを防げる。全部ではないが、学習に入る可能性を大きく下げるには十分防げるし、通常の訪問者への障壁も大きくない
  もう一つ重要なのは、学習データから外れたいなら 検索エンジンに載らないこと もおそらく必要だという点だ。商用検索エンジンは索引化した資料で学習するので、Google 検索で見つかるなら、同じ資料が Gemini にも入っている可能性が高い
  結局、LLM 学習なしでポートフォリオサイトを作りたいなら難しい。ただ作品をオンラインに載せたい程度なら、ログイン障壁や強力なクローラー防御で学習される可能性をかなり下げられる。残念ながら 0 にはできず、作品を隠したり毒化したりすれば確実だと言える魔法のようなツールはない
奥さんの直感は正しい気がする。少なくとも公にするなら、オンラインに載せないこと が答えに近い
- 嫌ではあるが、人間の創作表現全般がだいたいこういう状況なのだと思う
  低品質な生成物マシン の燃料になりたくないなら、公に共有することはできない
こんなことを言うことになるとは思わなかったが、もっと強い DRM が必要に見える。モデル内部まで出所追跡が可能なレベルであるべきだが、そんなものが存在しうるのかも不明だ
それ以外では、奥さんの言うことが正しい気がするし、LLM の難読化は長続きする緩和策にはならなさそうだ
- 好きなハッカーフォーラムに来て、人々が DRM 賛成 を論じているのを見ると、状況が本当に深刻だということだ
- 幸い DRM は機能しないし、機能しうるものでもない
  たとえ機能したとしても、すでに強い側ではない人々の権利を守るために展開されると期待すべきではない
- まったく違う。より強い DRM は必要ない
  これを達成する唯一の方法は、結局は破られるとしても、検証可能なハードウェアの暗号化エンクレーブ を使うことだけであり、これはユーザーが自分の機器を制御する権限をますます奪う方向だ
- 彼らが著作権やライセンスなどを完全に無視している点を見れば、どれだけ DRM を付けても役に立たない気がする
  それに、これらの企業が毎日燃やしている資金の規模を考えると、DRM が大きな障害になるとも思えない
  結果として、より資金力のあるモデルにしか入らないようにするだけかもしれない
  DRM をどう定義するかによっては、この種の 難読化 自体も DRM と呼べるかもしれない
1 年半前に Glaze を見て、いくつか確認の質問をしようと研究室にも連絡したが、記憶では返答はもらえなかった
その調査過程で限界や留保があまりにも多く見えた。今の最新水準がどうかは分からないが、一般的な 画像汚染 が大半のモデルに通用すると楽観はしていない
一部のモデルと一部の条件では Glaze は機能した

最近の作品画像でLLM学習を妨害する方法は？

質問の文脈

求めている解決方法

関連記事

1件のコメント

Lobste.rs の意見