1 ポイント 投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有
  • AIは原著者の同意の有無にかかわらず入力物を取り込んで学習し、その結果を販売しながら原著者に報酬を支払わない
  • AI企業(およびAIツール) の顧客も、プロンプトで処理した結果物を再び別の顧客に売り、インターネット全体からコピーされたものによって収益を得ている
  • 自身のEコマース関連チュートリアルは直接調査して執筆したものだが、一部のウェブサイトはChatGPTに人気のチュートリアルをいくつかコピーさせたうえで、自分たちの文章のように掲載している
  • 複製記事はGoogle検索結果でオリジナルよりも上位に表示されている
  • 複製記事には元のウェブサイトへ向かうリンクがまったく同じリンクテキストとともに残っており、削除されていないリンクによって複製であることが確認できた
  • Googleはオリジナルを盗用したウェブサイトをオリジナルより上位に表示し、無断複製コンテンツが検索で報われる構造を作っている

1件のコメント

 
GN⁺ 1 시간 전
Hacker Newsの意見
  • これを正当化するときによく使われる誤りがある。「小規模で問題ないか無視できるなら、大規模でも問題ない」という発想だ
    1つのウェブページから学んで金を稼ぐのはよくても、コンピュータが全員からあらゆるものを学んで金を稼ぐのはなぜ問題なのか、という理屈だ。Golden Gate Parkで花を1本摘むことと、売るために公園中の花を自動で刈り取る機械を作ることは違う。量的変化は活動の質的変化を生み、その効果が常に悪いとは限らなくても、無視せず検討する価値がある

    • その例では、小規模でも大規模でも、そもそも受け入れがたい行為だ。一方で他人から学ぶことは、小規模では社会的に受け入れられているだけでなく、発展の土台でもある
      要点は単なる規模ではなく、人間にとって望ましい行動でも、機械がやると社会的に許容されないという点に近い
    • 初期のウェブでも似たようなことは多かった。誰でも市裁判所に行けば見られる「公開」文書があったが、ブラウザに名前を入れるだけで全国の誰でも探せるようになると、性質が変わった
    • 花は物理的な物なので、移動させれば元の場所から消えるが、LLMがウェブページから何かを学んでもウェブページはそのまま残る
      ここで感じる「盗み」は完全に頭の中の解釈であって、誰かがコピーしたからといって原本を奪われたわけではない
    • これは合成の誤謬に当たる
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • インターネット以前には、情報と知識の格差が金と権力を生むことができた
      インターネット以後、LLM以前には、理論上は情報格差は大きく縮んだが、認知の壁のせいで大半の人は理解して活用できなかった。LLM以後、その壁が崩れつつあるのだから、情報と知識をどう違った形で使って金と権力を生むかを考える必要がある
  • 元の出典が報われる形でクレジットを得られない、より大きな問題が残っている
    ウェブサイト運営者はコンテンツのホスティング費用を負担し、スパイダーが来てクロールし、AI向けにインデックスされるのを許しているが、運がよくて引用される程度で、コンテンツ提供者として得られる見返りはほとんどない。状況はますます悪化していて、「AIに全部あるのに、なぜウェブサイトを見るのか」という話になる。結局、クローラーを遮断して、すべてをログインの裏側に置くしかなくなるのかもしれない

    • さらに悪いことに、継続的なAIスクレイピングはコンテンツ提供者に追加コストだけを生み、何の見返りもない
      少なくともGoogle/Bing/Yahooのスクレイピングは、原文へ戻るリンクを提供するために使われていた
    • 約1年前、OpenAIが私の勤務先の会社をDDoS級にクロールした。robots.txtで止めてあり、急いでreCAPTCHAも付けたが効果はなかった
      うちのデータがモデル出力に現れるのは確認したが、だからといって誰に何ができるのかという感じだ
    • 実際に金も時間もかかる。大学のシステム管理者をしている友人は、AIクローラーがサーバーをDDoSのように叩く件にずっと対処しなければならないと言っていたし、Anthropicは特にひどい部類らしい
      こうしたAI企業は、「コストは社会化し、利益は私有化する」というスローガンの気持ち悪い実例に近い
    • Googleの場合は、それが目的に近く見える。正しい方向を示す案内板ではなく、あらゆる答えを持つ神託になろうとしている
      関所ではなく目的地になろうとしているわけだ
    • 検索エンジンで見つからず、したがってクロールもされない形でウェブサイトをホスティングする方法があるのか気になる
      発見可能性に影響があるのは分かっているが、それが問題でないなら、クロールをどう回避できるのか知りたい
  • この問題は、「フェアユース」がデータスクレイピングの99%をカバーできる、というほど単純ではない
    元作品を再生産するのではなく、事前学習でトークンの確率分布を推定するために使うのだとすれば、もっと曖昧になる。LLMで本を一語一句そのまま取り出すことはできないはずだ

    • 「LLMで本を一語一句そのまま取り出すことはできない」という主張は、New York TimesがOpenAIを相手取って起こした訴訟の中核的主張とほぼ真正面から衝突する
      たとえばBing Chatは、2023年の記事「The Secrets Hamas knew about Israel’s Military」の冒頭396語のうち2語を除いてコピーしたし、提出資料には、OpenAIのGPTがTimesの記事を学習・記憶し、語単位でコピーした100件の事例が示されていた
      https://www.hollywoodreporter.com/business/business-news/cou...
    • 学校では、「自分の言葉で書いた」というのは出典を示さなくていい言い訳にはならなかった
      理解するまで少し時間がかかったが、引用すべきなのは文の文字どおりのコピーではなく、情報の出典なのだ
    • MP3エンコーダについても同じことは言えるだろうが、それで裁判官を納得させられるとは思わない
    • https://arxiv.org/html/2510.25941v1
      コンテンツを再現させることはできるが、いたちごっこだ。直接的な再現を避けるようにアラインされていなければ、もっと頻繁に起きていただろう。RECAPは他のどの方法よりも一貫して優れており、たとえばClaude-3.7からは最初の「Harry Potter」本の約3,000個の一節を抽出したが、最良のベースラインでも75個の一節にとどまった
    • Claudeに既存ライブラリのドロップイン置換を作らせ、そのライブラリのテストスイートで機能を検証するようプロンプトしてみればいい
      ほとんどコメントが抜けているだけの状態で、記憶からライブラリをそのまま剽窃する
  • AIから何か良いことが1つでも生まれるとしたら、それは著作権法を永遠に壊すことかもしれない
    誰もアイデアを「所有」できるべきではない。商業利用に対するロイヤルティは別問題として支持するが、私たちが知る非商業的な海賊版や無許可ファンアートは100%合法であるべきだ

    • それなら全員に対して著作権を廃止すればいい。だが今は、超巨大企業がみんなのものを嬉々として剽窃する一方で、映画を海賊版にした人にはSWATチームを送り込んで殺すような、もっとひどいシステムに閉じ込められている
    • 著作権はそもそも「アイデア」を保護していなかったし、今もそうではない。保護しているのは表現
    • たとえば歌のようなものは、アイデアよりはるかに大きい。アイデアに加えて、編曲、制作、演奏といった作業が乗っている
      現行制度と違って、限定された形で一定期間、成果物を所有させるというロジックはかなり合理的に見える
    • 最大の問題は壊れた商業化ではなく、壊れた著作者表示
      芸術を作ったなら認められるべきだ。芸術は人間が自分を表現する重要な方法なのだから
    • 著作権は壊れるのではなく、これまでもそうだったように、富の重力に合わせて選択的に曲がるだけだろう
      anna's archiveで絶版書籍を「ダウンロード」することはできないが、企業はその全データで学習し、要約を吐き出すサブスクリプション料金を喜んで取るだろう
  • これがなぜ驚くべきことなのか分からない。AI企業がモデル学習のために膨大なデータを盗んだことは誰もが知っているのに、なぜ止まると思うのか。著作権データの大量窃盗について、まともな代償を払ったことがあるのか
    私たちはそのデータを盗んだり、そこから利益を得たりしてはいけないのに、彼らはなぜか許される。きっと世界の役に立ち、人類を前進させる存在だからなのだろう

    • そのデータは盗まれていない。まだそこにある
    • 止まる理由は、ソースが今やAIで汚染されているからだ。少なくとも、スクレイピングをやめる理由の1つにはなる
    • 理由は単純だ。Microsoftがあなたの成果物を盗めばGDPが上がり、あなたがMicrosoftの成果物を盗めばGDPが下がる
      法を作り執行する人たちはGDPが上がることを望んでいる。彼らにとって道徳や権利は、不都合になれば簡単に捨てられる薄い仮面にすぎない
    • 理由は縁故資本主義だ。解決策が分かればいいのだが
    • 悪い、あるいは不公正な状況が話題になるたびに、冷笑的な虚無主義者が「なんで驚いてるの?」みたいな反応を付けるのにはもう本当にうんざりだ
      そういうコメントは洞察でも助けでも考える材料でもない。ただ悪い状況が悪いままで居続けるのを手伝っているだけだ
  • 「知的財産権」だって? それは魅惑的な蜃気楼だ
    https://www.gnu.org/philosophy/not-ipr.html

    • その蜃気楼が、Oracle、Microsoft、Meta、Googleにも、近所の無給で酷使されるオープンソース開発者にも、同じように適用されるならそれでいい
      Oracleの内部リポジトリ全体を出典表示なしで学習したオープンウェイトモデルなら公平だ
  • 「彼らの文章には私の実際のウェブサイトへのリンクがあり、リンクテキストもまったく同じだ」という部分の何が問題なのか、正直よく分からない
    リンクテキストがよほど長くない限り、誰かがあなたの記事にリンクするとき、なぜ別の言葉を使わなければならないのか?

    • そのとおり。それは出典を引用してリンクしたということだ
    • リンクが .../post/{id}/{extra-text} の形になっている場合がある。ここで extra-text は投稿のマッチングにはまったく使われない
      Amazonリンクも昔はこういう方式で、商品名がリンク末尾に付いていたが、消したり変えたりしても依然として商品に飛べた。おそらくLLMがリンクの無関係な部分までそのまま出したので驚いたのだろう
    • おそらくセクション見出しが自分のウェブページへのリンクになっていたか、それに近い形だったのだと思う。よく書けた怒りの文章ではない
    • 自分のウェブサイトURLをチュートリアルの例として使っていて、他のチュートリアルがそれをそのままコピーした、という意味に見える
    • ウェブページが2つあるとしよう。1つはリンゴのフリッターレシピ、もう1つはリンゴの味ランキング一覧だ
      そのリンゴのフリッターレシピが、リンゴランキング一覧へリンクしているとする。後で誰かがあなたのレシピを出典なしでコピーしたのに、同じ文言で相変わらずリンゴランキング一覧へリンクしている。彼らはあなたの記事を盗んだうえで、Google検索での露出と広告収入までより多く持っていく。そこが問題だ
  • 2つのことが混同されているように思う
    第一に、LLM/トランスフォーマー技術は本当に驚異的で革命的だ。第二に、結局のところ彼らは人類の知識の大半を含んだ巨大で効果的なデータベースのように動作する。1が2を見えにくくしている。誰かが存在するあらゆるデジタル成果物をSQLデータベースに入れ、要求があれば無料で提供していたなら、合法性に曖昧さはなかっただろう。だが蒸留のような過程がこの関係を覆い隠し、単なる検索とは違って見せている。実際、それ以上のものであることも確かだからだ

  • 知的財産の弁護士で、この問題を実際に扱っている
    法律相談ではないが、オンラインでコンテンツを作るなら、公開リポジトリのコード、ブログ、ポッドキャスト、YouTube、出版物まで、趣味ブログであっても米国著作権登録をしておくのが最も賢明な選択だ。Anthropicは著作権のある著作物の海賊版コピーを理由に、作家たちに15億ドルの集団和解金を支払った。HNコミュニティの成果物が保護されていたなら、すべてのLLMスクレイピングについて莫大な法定損害賠償が可能かもしれない。私は何百人もの作家や出版社と仕事をしており、彼らの作るものを保護しライセンスするための連合を作っている

    • Anthropicが負けたのは、著作権のある著作物をスクレイピングした、つまり読んだからではない。torrentで著作権のある著作物を直接配布したからだ
      この2つは同じではない
    • 著作権は常に自動で発生すると聞いてきた。著作権登録には金がかかるのか? ブログ記事ごとにやるのか? gistごとにやるのか?
      自分が期待していた著作権を実際に手に入れるのに必要な作業なら、スクリプトを書いてでもやれる
    • オリジナルの創作物をオンラインに投稿するだけで著作権は発生するのではないのか?
    • 「著作権を登録する」というのが何を意味するのか分からない。これまで見聞きしてきた説明では、創作物の著作権は自動的に所有し、ライセンスで放棄しない限りデフォルトで「all rights reserved」だという話だった
      もうそうではないのか? なぜ急に違うのか? いつ変わったのか?
    • 誰もこんなことはしないだろうし、十分な人数がやることもないだろう。プランBは何だ?
  • 技術的に著作権侵害かどうかが、私の主たる問題ではない
    もっと大きな問題は、世界中のコンテンツからレントシーキングを行う能力が、大規模データセンターを建てられる少数の企業の手に集中することだ。これは巨大な問題だ。自分のウェブページ、ニュースサイト、オンライン雑誌、商業アートがモデルに吸い込まれ、自分がインセンティブから排除されるなら、なぜ作る必要があるのか? これが今の法の下で著作権侵害でないのなら、人間の創造性と小規模事業にとって絶対的な悲劇なので、新しい法的枠組みが必要だ

    • Googleのときも、まったく同じ過程をたどった。人々がウェブサイトを見つける唯一の経路になった後は、Googleが不当な経済的レントを吸い上げているだけだと主張されていた