最近の作品画像でLLM学習を妨害する方法は?
(lobste.rs)- あるユーザーは、妻が自分の作品画像がLLM学習に使われることを望んでおらず、オンライン公開をためらっていると述べている
- 質問の核心は、画像を事前処理してLLM学習を妨害するライブラリや方法が、現時点で実用的かどうかである
- ユーザーは、妻のためのカスタムWebサイトを自作できるレベルのツールがあるのか気にしている
- 本人はフロントエンドの経験があまり多くないが、静的サイトジェネレーターで簡単なサイトは作れる
- 過去にバンドのWebサイト制作でEleventyを使った経験があり、同様の方法での静的サイト構築を検討している
質問の文脈
- 妻は自分の作品画像をオンラインに載せたがっていない
- 理由は、その画像がLLM学習に使用されることを望まないためである
- ユーザーは、作品画像をあらかじめ処理してLLM学習を難しくする方法があるかを探している
求めている解決方法
- 妻のためのカスタムWebサイトを自分で作る案を念頭に置いている
- 必要な条件は、作品画像を処理してLLM学習を妨害できるライブラリや方法が実際に存在するかどうかである
- 自分の技術的条件は次のとおり
- フロントエンド経験はあまり多くない
- 静的サイトジェネレーターで簡単なサイトは作れる
- 以前にEleventyでバンドのWebサイトを作った経験がある
1件のコメント
Lobste.rs の意見
更新: cara を見てみるとよさそう
私のアーティストの友人がそこに作品を載せていて、満足しているようだ
アーティスト第一を掲げていて、公然と反AI寄りであり、画像がAI学習に使われないよう防ぐ Glaze 連携 もあるようだ
それと、言いたかったのは LLM ではなく 拡散モデル の可能性が高い。LLM はテキストを扱うので、検索時には役立つかもしれない
Nightshade は覚えているが、ざっと確認したところ 2023/24 年ごろに出たもののようで、リポジトリやメンテナンスの形跡は見つけられなかった
汚染したり、LLM がアクセスできる芸術作品を隠したりする方法の問題は、どの程度効果があるのか分からず、しかも分かりようがないことにある。結局はすべて ブラックボックス に入ってしまうからだ
作品が LLM に収集されることを望まないなら選択肢はいくつかあり、それぞれに長所と短所がある
もう一つ重要なのは、学習データから外れたいなら 検索エンジンに載らないこと もおそらく必要だという点だ。商用検索エンジンは索引化した資料で学習するので、Google 検索で見つかるなら、同じ資料が Gemini にも入っている可能性が高い
結局、LLM 学習なしでポートフォリオサイトを作りたいなら難しい。ただ作品をオンラインに載せたい程度なら、ログイン障壁や強力なクローラー防御で学習される可能性をかなり下げられる。残念ながら 0 にはできず、作品を隠したり毒化したりすれば確実だと言える魔法のようなツールはない
奥さんの直感は正しい気がする。少なくとも公にするなら、オンラインに載せないこと が答えに近い
低品質な生成物マシン の燃料になりたくないなら、公に共有することはできない
こんなことを言うことになるとは思わなかったが、もっと強い DRM が必要に見える。モデル内部まで出所追跡が可能なレベルであるべきだが、そんなものが存在しうるのかも不明だ
それ以外では、奥さんの言うことが正しい気がするし、LLM の難読化は長続きする緩和策にはならなさそうだ
たとえ機能したとしても、すでに強い側ではない人々の権利を守るために展開されると期待すべきではない
これを達成する唯一の方法は、結局は破られるとしても、検証可能なハードウェアの暗号化エンクレーブ を使うことだけであり、これはユーザーが自分の機器を制御する権限をますます奪う方向だ
それに、これらの企業が毎日燃やしている資金の規模を考えると、DRM が大きな障害になるとも思えない
結果として、より資金力のあるモデルにしか入らないようにするだけかもしれない
DRM をどう定義するかによっては、この種の 難読化 自体も DRM と呼べるかもしれない
1 年半前に Glaze を見て、いくつか確認の質問をしようと研究室にも連絡したが、記憶では返答はもらえなかった
その調査過程で限界や留保があまりにも多く見えた。今の最新水準がどうかは分からないが、一般的な 画像汚染 が大半のモデルに通用すると楽観はしていない
一部のモデルと一部の条件では Glaze は機能した