1 ポイント 投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有
  • New York Times、The Atlantic、USA Today などの主要メディアがWayback Machineによるニュース保存を妨げており、中止を求める声が上がっている
  • 主要メディアのリーダーはInternet Archiveと協力し、すべてのニュースをWayback Machineに保存すると公に約束すべきである
  • 2026年は、この30年で初めて、World Press Freedom Day の時点で主要メディアの仕事がInternet Archiveに保存されていない年になるとされる
  • 出版社側が禁止理由として挙げる AIへの懸念 は仮定にすぎず、生成AI時代には独立した保存がいっそう重要になる
  • 検閲や権威主義、記者に対する 殺害脅迫 が強まる中、中立的な第三者による保存は報道が消えないようにする

ブロックの背景

  • 2026年は、この30年で初めて、World Press Freedom Day の時点でNew York Times、The Atlantic、USA Todayなど主要メディアの仕事が、独立系非営利組織Internet Archiveに保存されていない年になるとされる
  • New York Times は今年2月から、Wayback Machineが自社記者の記事を保存できないようInternet Archiveに求めている
  • Wiredの報道によれば、USA TodayはWayback Machineに依拠した力強い報道を出していながら、同じ報道がWayback Machineに保存されることは遮断している
  • 100人を超える記者がInternet Archiveの報道保存を支持する書簡を送った後、The AtlanticのCEOは見解を示したが、解決策を見つけると約束はしていない

AIへの懸念とWayback Machineの役割

  • これらの媒体がWayback Machineを禁じる理由として挙げた AIへの懸念 は、完全に仮定的なものとして扱われている
  • 生成AIは、原則ある報道を ファクトチェッカーから隠す理由 にはなり得ず、むしろWayback Machineの必要性をさらに高めている
  • AI企業は、模倣アーカイブサイトのようにルールを無視して出版社のWebサイトから同意なくニュースを持ち去ることができ、それを防ぐ手段はほとんどないと見られている
  • Wayback Machineは、「archive」という語を使ってInternet Archiveに似せようとするサービスとは異なり、一時的なサービス ではない
  • Wayback Machineは、この請願に署名している多くの人々の年齢よりも長くニュースを保存してきた
  • Wayback Machineは ペイウォール回避サービス ではなく、報道保存のための独立した非営利の公共財として扱われる
  • Internet ArchiveがSilicon Valleyの大半のように振る舞わない理由は integrity にあり、その点こそがInternet Archiveを信頼でき、長期的に運営される対象にしていると見られている

報道保存と公共性

  • 報道の自由には記事を書く自由だけでなく、その仕事が 世代を超えて読まれ、記憶される自由 も含まれる
  • 検閲と権威主義が強まるにつれ、報道を書き換えたり事実を消したりする圧力も同時に増している
  • 記者はしばしば 殺害脅迫 を受けており、この1年の間にも、自らの仕事が理由で亡くなった記者が複数いるとされる
  • こうした状況では、Wayback Machineの 中立的な第三者による保存 を強化し、記者たちの仕事が消えないようにすべきである
  • 報道は、同僚や遺族だけでなく 歴史の目 に対してもアクセス可能であるべきだ
  • Wayback Machineは、オンラインニュースメディアが権力者を脅かす記事を削除せよという圧力に、より強く耐えられるようにする
  • 実際にジャーナリズムを行うニュースメディアであれば、このような連帯を支持することは自らの利益にもかなう

要求と参考資料

  • 主要メディアの経営陣はInternet Archiveと協力し、すべてのニュースをWayback Machineに保存 すると公に約束すべきである
  • ニュースを独立して保存する方法を見つけることが、これほど難しくあってはならない
  • 参考資料

1件のコメント

 
GN⁺ 1 시간 전
Hacker News のコメント
  • archive.org が robots.txt を尊重し、対象サイトがクローラーのインデックスを拒否していたためにこうなったのか気になる
    robots.txt を守るという「正しい行動」が請願への対応負担となって返ってきて、同じ指示を無視した側が利益を得る構図なのは残念だ

    • archive.org のような 知名度の高いクローラー が robots.txt を無視すると、訴訟や別の圧力を受ける可能性が高い
      これは単なる道徳的な選択ではなく、ほとんど唯一の合理的な選択に近いし、「別の側が利益を得る」のは、そうした義務が約束に近い程度にしか機能せず、規模が小さいか目立たない主体には訴訟まで持ち込む動機が弱いからでもある
    • その通り。nytimes.com の robots.txt にはこんな断片がある: User-agent: archive.org_bot / Disallow: /
    • 理由は AI 企業がコンテンツを盗むこと を防ぎたいからで、Internet Archive がすべてを代わりにプロキシしてしまえば防ぎようがない
      最新ニュースを取得できなければ、あらゆる大規模言語モデルはずっと役に立たなかったはずだ
    • いや、archive.org は robots.txt を尊重していない。直接連絡して自分のサイトを含めないよう依頼しなければならない: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • DRM が生み出したのと同じ種類の愚かさだ
      海賊になれと言っているようなもので、海賊は自由だからだ
  • Archive.org が NYT や他の出版社のコンテンツにアクセスできるなら、人々は NYT から直接大規模にスクレイピングできなくても、Archive.org 経由で NYT コンテンツを大量収集できてしまうのが問題に見える
    Archive.org がスクレイパーを防げるなら、出版社側も別の選択をして Archive.org へのアクセスを許可するかもしれない

  • アイデア: スクレイピングは許可するが、1 年間は公開できないようにしたらどうか?

    • Archive が LLM クローラーに逆に負担を負わせられるよう、共同訴訟基金も設けるべきだ
  • Financial Times が NewsBank サービスで 30 日間のエスクローとして提供されているように、彼らもエスクローを設けられそうだ

  • 陰謀論者の帽子をかぶって見るなら、彼らが こっそり修正して、昔の記事の版は存在しなかったふりができる状態を好んでいるのも理由の一つかもしれない

  • その組織の広告を見たこともなく購読料も払ったことのない人たちが、その組織に 裏口を開けておけ と要求して争うつもりなのか?

  • Times と Atlantic 側のこの議論を少し知っている。叩かれるかもしれないが、前者の幹部に HN でよくある ペイウォール回避方法をどう思うか尋ねたところ、彼らがそれを聞いたことすらなかったのに本当に驚いた
    結局、30 日後に公開し、将来必要になれば 1 日 N 回以上取得できないようなアクセス制限を設けるのが妥当なバランスだという点では同意した。私の知る限り、Internet Archive はこの問題について積極的に接触しておらず、出版社だけでなく Internet Archive にも交渉するよう圧力をかけるべきだ

    • かなり良い妥協案に見える。ニュース組織は初期の ページビュー急増を維持できるし、インターネットの無料情報 / 普遍的図書館としての役割も保たれる
      それでも雑誌側は自分たちのバックカタログを管理したがるだろう。今でも図書館や大学にアクセス権を売っているし、HN で何度も言われているように、一部のニュース組織は公開された「修正履歴」なしに記事を変えたり更新したりしたいのかもしれない
    • Internet Archive は定期的にペイウォール回避に使われているのか? 普通は archive.is で、IA とは関係ない
    • 「必要性が生じた場合」に 1 日 N 回以上取得できないようにするというのは、どちらにしても彼らに利益があるのでは?
      どこかで不幸なデジタル統計ダッシュボードを表示し、その数字への崇拝がジャーナリズム本来の精神に取って代わってしまったのではないかと思う
    • それほど驚くことではない。彼らは 間違った時代の間違ったモデルと誤ったインセンティブで動いている
      いまだにデータと情報が希少で、自分たちが唯一の真実の源泉である世界に生きているかのように振る舞っている。今は逆転して、単一の基準となる真実はないが、データと情報は豊富で、その豊富さには偽データや嘘も含まれる。NYT や Atlantic の最高の日の調査報道は世界に価値を加えるが、記者たちはアクセス可能であることを望んでいるのに、組織はその仕事を隠し隔離しようとする。理想的には、すべての子どもが NYT や Atlantic で英語を学び、それらの記録媒体とともに育ち、世界を見ることができるはずだが、現在のモデルはそれを許していない。支援と Wikimedia 的な財団を組み合わせた形のほうが合っているかもしれない。組織と使命を愛する読者が望むだけ支払い、金額に応じて特典を受け、拠出金は基金に入り運用され、その収益が運営予算の一部に配分される構造だ。情報が豊富な世界では、古典的ジャーナリズムは 支援ベースのアプローチなしには生き残れないと思う
    • こういう「ニュース」サイトは HN にそもそも載らないでほしい。記事が事実で議論に値するなら、Reuters のような より信頼できる組織が報じるか、直接投稿すべき一次情報源のはずだ
      あまりにも頻繁に詳細や引用を選択的に報じたり、後になって完全な誤りだと判明した信頼できない情報源の事実を報じたりしてきた。後者の場合は記事をひっそり取り下げるので、ほとんどの読者はそのまま誤りを信じ続ける。おそらくそれで保管されたくないのだろう。小さなブログ記事を載せるほうがまだましだ。偏っていて信用できないかもしれないが、独自の考えがあり、個人を支援でき、広告がないこともあるからだ。もちろん、ここに載る露骨な LLM ブログが多いのはまた別の問題だ
  • これを期待している: (https://news.ycombinator.com/item?id=48070516)

  • 暗号学的に検証可能なインターネットアーカイブが必要だ。web3 や nostr、gpg/pgp のようなものなしでは、おそらく不可能かもしれない

    • 互いに無関係な 複数のアーカイブがあれば十分うまくいくだろう
    • Archive がすべてのリクエストの SSL 署名のようなものを公開することはできないのか?
      opentimestamps のように Bitcoin に載せる方式で、タイムスタンプは暗号学的に検証できる
  • 署名はしたが、正直にならなければならない
    Wayback Machine で古い NYT 記事を読んだ回数と、HN の上位コメントが比較的新しい記事へのリンクを貼って皆がペイウォールを回避しようとして訪れた回数を円グラフにしたら、完全な円になるだろう

    • 保管版がなかったとして、その記事を見るために NYT に金を払っただろうか? そうは思わない