AIは、より大規模な無断盗用にすぎない
(axelk.ee)- AIは原著者の同意の有無にかかわらず入力物を取り込んで学習し、その結果を販売しながら原著者に報酬を支払わない
- AI企業(およびAIツール) の顧客も、プロンプトで処理した結果物を再び別の顧客に売り、インターネット全体からコピーされたものによって収益を得ている
- 自身のEコマース関連チュートリアルは直接調査して執筆したものだが、一部のウェブサイトはChatGPTに人気のチュートリアルをいくつかコピーさせたうえで、自分たちの文章のように掲載している
- 複製記事はGoogle検索結果でオリジナルよりも上位に表示されている
- 複製記事には元のウェブサイトへ向かうリンクがまったく同じリンクテキストとともに残っており、削除されていないリンクによって複製であることが確認できた
- Googleはオリジナルを盗用したウェブサイトをオリジナルより上位に表示し、無断複製コンテンツが検索で報われる構造を作っている
1件のコメント
Hacker Newsの意見
これを正当化するときによく使われる誤りがある。「小規模で問題ないか無視できるなら、大規模でも問題ない」という発想だ
1つのウェブページから学んで金を稼ぐのはよくても、コンピュータが全員からあらゆるものを学んで金を稼ぐのはなぜ問題なのか、という理屈だ。Golden Gate Parkで花を1本摘むことと、売るために公園中の花を自動で刈り取る機械を作ることは違う。量的変化は活動の質的変化を生み、その効果が常に悪いとは限らなくても、無視せず検討する価値がある
要点は単なる規模ではなく、人間にとって望ましい行動でも、機械がやると社会的に許容されないという点に近い
ここで感じる「盗み」は完全に頭の中の解釈であって、誰かがコピーしたからといって原本を奪われたわけではない
https://en.wikipedia.org/wiki/Fallacy_of_composition
インターネット以後、LLM以前には、理論上は情報格差は大きく縮んだが、認知の壁のせいで大半の人は理解して活用できなかった。LLM以後、その壁が崩れつつあるのだから、情報と知識をどう違った形で使って金と権力を生むかを考える必要がある
元の出典が報われる形でクレジットを得られない、より大きな問題が残っている
ウェブサイト運営者はコンテンツのホスティング費用を負担し、スパイダーが来てクロールし、AI向けにインデックスされるのを許しているが、運がよくて引用される程度で、コンテンツ提供者として得られる見返りはほとんどない。状況はますます悪化していて、「AIに全部あるのに、なぜウェブサイトを見るのか」という話になる。結局、クローラーを遮断して、すべてをログインの裏側に置くしかなくなるのかもしれない
少なくともGoogle/Bing/Yahooのスクレイピングは、原文へ戻るリンクを提供するために使われていた
うちのデータがモデル出力に現れるのは確認したが、だからといって誰に何ができるのかという感じだ
こうしたAI企業は、「コストは社会化し、利益は私有化する」というスローガンの気持ち悪い実例に近い
関所ではなく目的地になろうとしているわけだ
発見可能性に影響があるのは分かっているが、それが問題でないなら、クロールをどう回避できるのか知りたい
この問題は、「フェアユース」がデータスクレイピングの99%をカバーできる、というほど単純ではない
元作品を再生産するのではなく、事前学習でトークンの確率分布を推定するために使うのだとすれば、もっと曖昧になる。LLMで本を一語一句そのまま取り出すことはできないはずだ
たとえばBing Chatは、2023年の記事「The Secrets Hamas knew about Israel’s Military」の冒頭396語のうち2語を除いてコピーしたし、提出資料には、OpenAIのGPTがTimesの記事を学習・記憶し、語単位でコピーした100件の事例が示されていた
https://www.hollywoodreporter.com/business/business-news/cou...
理解するまで少し時間がかかったが、引用すべきなのは文の文字どおりのコピーではなく、情報の出典なのだ
コンテンツを再現させることはできるが、いたちごっこだ。直接的な再現を避けるようにアラインされていなければ、もっと頻繁に起きていただろう。RECAPは他のどの方法よりも一貫して優れており、たとえばClaude-3.7からは最初の「Harry Potter」本の約3,000個の一節を抽出したが、最良のベースラインでも75個の一節にとどまった
ほとんどコメントが抜けているだけの状態で、記憶からライブラリをそのまま剽窃する
AIから何か良いことが1つでも生まれるとしたら、それは著作権法を永遠に壊すことかもしれない
誰もアイデアを「所有」できるべきではない。商業利用に対するロイヤルティは別問題として支持するが、私たちが知る非商業的な海賊版や無許可ファンアートは100%合法であるべきだ
現行制度と違って、限定された形で一定期間、成果物を所有させるというロジックはかなり合理的に見える
芸術を作ったなら認められるべきだ。芸術は人間が自分を表現する重要な方法なのだから
anna's archiveで絶版書籍を「ダウンロード」することはできないが、企業はその全データで学習し、要約を吐き出すサブスクリプション料金を喜んで取るだろう
これがなぜ驚くべきことなのか分からない。AI企業がモデル学習のために膨大なデータを盗んだことは誰もが知っているのに、なぜ止まると思うのか。著作権データの大量窃盗について、まともな代償を払ったことがあるのか
私たちはそのデータを盗んだり、そこから利益を得たりしてはいけないのに、彼らはなぜか許される。きっと世界の役に立ち、人類を前進させる存在だからなのだろう
法を作り執行する人たちはGDPが上がることを望んでいる。彼らにとって道徳や権利は、不都合になれば簡単に捨てられる薄い仮面にすぎない
そういうコメントは洞察でも助けでも考える材料でもない。ただ悪い状況が悪いままで居続けるのを手伝っているだけだ
「知的財産権」だって? それは魅惑的な蜃気楼だ
https://www.gnu.org/philosophy/not-ipr.html
Oracleの内部リポジトリ全体を出典表示なしで学習したオープンウェイトモデルなら公平だ
「彼らの文章には私の実際のウェブサイトへのリンクがあり、リンクテキストもまったく同じだ」という部分の何が問題なのか、正直よく分からない
リンクテキストがよほど長くない限り、誰かがあなたの記事にリンクするとき、なぜ別の言葉を使わなければならないのか?
.../post/{id}/{extra-text}の形になっている場合がある。ここでextra-textは投稿のマッチングにはまったく使われないAmazonリンクも昔はこういう方式で、商品名がリンク末尾に付いていたが、消したり変えたりしても依然として商品に飛べた。おそらくLLMがリンクの無関係な部分までそのまま出したので驚いたのだろう
そのリンゴのフリッターレシピが、リンゴランキング一覧へリンクしているとする。後で誰かがあなたのレシピを出典なしでコピーしたのに、同じ文言で相変わらずリンゴランキング一覧へリンクしている。彼らはあなたの記事を盗んだうえで、Google検索での露出と広告収入までより多く持っていく。そこが問題だ
2つのことが混同されているように思う
第一に、LLM/トランスフォーマー技術は本当に驚異的で革命的だ。第二に、結局のところ彼らは人類の知識の大半を含んだ巨大で効果的なデータベースのように動作する。1が2を見えにくくしている。誰かが存在するあらゆるデジタル成果物をSQLデータベースに入れ、要求があれば無料で提供していたなら、合法性に曖昧さはなかっただろう。だが蒸留のような過程がこの関係を覆い隠し、単なる検索とは違って見せている。実際、それ以上のものであることも確かだからだ
知的財産の弁護士で、この問題を実際に扱っている
法律相談ではないが、オンラインでコンテンツを作るなら、公開リポジトリのコード、ブログ、ポッドキャスト、YouTube、出版物まで、趣味ブログであっても米国著作権登録をしておくのが最も賢明な選択だ。Anthropicは著作権のある著作物の海賊版コピーを理由に、作家たちに15億ドルの集団和解金を支払った。HNコミュニティの成果物が保護されていたなら、すべてのLLMスクレイピングについて莫大な法定損害賠償が可能かもしれない。私は何百人もの作家や出版社と仕事をしており、彼らの作るものを保護しライセンスするための連合を作っている
この2つは同じではない
自分が期待していた著作権を実際に手に入れるのに必要な作業なら、スクリプトを書いてでもやれる
もうそうではないのか? なぜ急に違うのか? いつ変わったのか?
技術的に著作権侵害かどうかが、私の主たる問題ではない
もっと大きな問題は、世界中のコンテンツからレントシーキングを行う能力が、大規模データセンターを建てられる少数の企業の手に集中することだ。これは巨大な問題だ。自分のウェブページ、ニュースサイト、オンライン雑誌、商業アートがモデルに吸い込まれ、自分がインセンティブから排除されるなら、なぜ作る必要があるのか? これが今の法の下で著作権侵害でないのなら、人間の創造性と小規模事業にとって絶対的な悲劇なので、新しい法的枠組みが必要だ