Internet Archiveに1兆件のWebページが保存される

(blog.archive.org)

4 ポイント投稿者 GN⁺ 2025-10-07 | 1件のコメント | WhatsAppで共有

Internet Archive が運営する Wayback Machine が、世界中のWebページ 1兆件保存 という歴史的なマイルストーンを達成
1996年に始まったこのプロジェクトは、ウェブの集合的記憶を保存 するための協業として、ニュース・ブログ・個人ホームページなど多様なコンテンツをアーカイブしてきた
これを記念し、10月の1か月間にわたってサンフランシスコとオンラインで コンサート・対談・フォーラム・オープンハウスなど一連のイベント を開催
イベントには ウェブの創始者ティム・バーナーズ＝リー、Internet Archive創設者ブリュースター・ケール、Googleのヴィント・サーフ など、インターネットの先駆者たちが参加
今回の達成は、デジタル時代における集合的記録保存の価値 を改めて認識し、自由で開かれたウェブの未来 をともに議論する場という意味を持つ

Internet Archiveの1兆ページ達成が持つ意味

Wayback Machine は1996年から世界中のWebサイトを自動収集・保存し、誰もが過去のウェブをたどれるようにしてきた
今回の1兆件達成は、「人類のオンライン史の共同図書館」 という目標に向けた大きな前進
このプロジェクトは、図書館、研究機関、個人ボランティアなどとのグローバルな協力によって支えられてきた
アーカイブは、ニュース見出し、ブログ、フォーラム、個人ホームページなど、消えうるウェブの痕跡を 未来世代のためのデジタル記憶 として残している

10月の記念イベント日程

10月7日 — The Vast Blue We: Del Sol Quartet at the Internet Archive

サンフランシスコ本社で Del Sol Quartet が演奏し、人間の協力の大きさをたたえる公演を開催
作曲家 Erika Oba、Sam Reider による新作を演奏予定
- 数十億人の行動が積み重なって生まれたウェブ協業の美しさ を音楽で表現

10月9日 — Sir Tim Berners-LeeとBrewster Kahleの対談

World Wide Webの創始者 Sir Tim Berners-Lee と Internet Archive 創設者 Brewster Kahle による討論
インターネットの成長、社会変化、Internet Archiveの役割など多様なテーマを議論
インターネットの継続的な発展と将来の論点について掘り下げた対話で構成
サンフランシスコのコモンウェルス・クラブおよびオンラインでライブ配信

10月16日 — Library Leaders Forum 2025 (オンライン)

Internet Archive およびパートナー機関の新しい図書館サービスと既存プロジェクトの現状を共有
世界中の図書館リーダーが参加し、デジタル保存と研究支援の未来 を議論
Internet Archiveの新サービスと研究支援の事例を紹介

10月21日 — Doors Open 2025: 物理アーカイブツアー

California州Richmondにある 物理アーカイブ の書籍、音楽、映像、フィルムなどの 実際の保管環境を公開
書籍、音楽、フィルム、マイクロフィッシュなど 実物アーカイブ工程を実演
寄贈、保存、デジタル化、アクセス提供など、物理資料のライフサイクル全体を直接確認できる機会

10月22日 — The Web We’ve Built: 1 Trillion Celebration

Wayback Machineの 1兆Webページ達成の公式記念イベント
サンフランシスコ本社で グローバル配信パーティー を同時開催
「1兆の記憶、瞬間、ムーブメントを保存した達成」をテーマに
公開ウェブの価値と集合的記録の力 を祝う

10月27日 — Wayback to the Future: Celebrating the Open Web

ワシントンD.C.のジョージタウン大学 Riggs Library で開催
Foundation for American Innovation, Massive Data Institute, Internet Archive の共催
開放的で実験的だった過去のウェブの価値を振り返ると同時に、現在の集中化・閉鎖化の流れの中で 自由なインターネット生態系の持続可能性 とウェブの未来を討論
Vint Cerf(Google)、Cindy Cohn(EFF)、Jon Stokes(Ars Technica) などが登壇

デジタル記憶の未来

1兆件のWebページ保存は、単なる数字以上の意味を持つ
このデータにより、移民事例、個人史、学術研究、調査報道など幅広い分野で Wayback Machine が公共の中核的資源として位置づけられている
Internet Archiveは今後も 「誰もがアクセスできる公共のウェブ図書館」 というビジョンを継続していく
1兆ページ達成は終わりではなく 新たな出発点 であり、
AI時代の情報アクセス・保存のあり方に関する議論も続いていく見込み
Brewster Kahle は「私たちがともに作ってきたウェブは 集合知の巨大な記録物 であり、
それを守っていくことは人類の責任だ」と強調した

1件のコメント

GN⁺ 2025-10-07

Hacker Newsの意見

望みがあるとすれば、archive.org のピアミラーネットワークだと思う。IA の Web アプリケーションは複数の日付をクリックしていくとすぐアクセス制限に引っかかりがちな傾向がある。torrent のような方式で archive.org のコンテンツをゆっくり分散ミラーし、ユーザーがデータを選択的に確認・検証できる代替ソースが現れたらすばらしいと思う。今は ArchiveBox で自分のアーカイブを運用しているが、自分の個人的な用途にしか使っていない。ほとんどの人は今も IA を使っている。資料が本当に膨大だからだ
- Archive Team は Internet Archive とは別に、インターネットアーカイブの一部を分散バックアップするプロジェクトを進めたことがある。詳細と進捗は INTERNETARCHIVE.BAK プロジェクト wiki で確認できる。ただし最近は一時停止状態になっている
- Web アーカイブが本当に遅いことは確かに体験した。AI スクレイパーが帯域のボトルネックを作っているようにも思う。デジタルアーカイブの中には Common Crawl のように、科学者アカウントを別途作らないとアクセスできないものもある。データ量が膨大で保存目標も大きいため、インターネットだけでなく時間という追加の次元まで保存している。データが多すぎて探索や検索が非常に難しくなり、実際ほとんど使えない状態になってしまう。そこで私はドメイン情報を得るために Internet-Places-Database というメタデータリンクプロジェクトを自分で作った
- 以前スクレイピングプロジェクトをしていたとき、過去のスナップショットを探そうとして、Internet Archive から情報を引き出すのが思いのほか難しいとわかった。pywaybackup を使うようになってかなり改善したと感じた
- なぜ IA が IPFS インスタンスを運用していないのか、あるいは運用していてもあまり人気がないのか気になる。IPFS ミラーサービスはすでにかなり高速に動いているところが多い。IA で経験した問題のひとつは、とても古い Web サイトが JS や CSS の問題で正しくレンダリングされないことだ。こうしたものをさかのぼって修正する方法があるのかも気になる。もしその当時使えたコードをすべて書き出せるなら、サイトをもっと完全に復元できるはずだ。IA でドメインをクリックすると、デスクトップクライアントが低優先度キューで必要なだけ WAR ファイルをゆっくり受け取り、オフラインでも完全に閲覧できるようになれば本当にうれしい
- 余っているストレージを archive.org に「寄付」する仕組みを考えたことがある。クライアントを実行して 1TB 提供すると宣言すれば、サーバーが最も希少なコンテンツを自分のコンピューターに送ってくる構造だった。torrent ベースで、その上に簡単なコンテンツ転送システムも載せられる。このネットワークからデータを受け取る形でも使える。いくつかのアーカイブチームにメールしたが誰も関心を示さなかったので、結局作らなかった
私は Internet Archive でデータセンター／インフラチームを運営している。この秋に行う各種イベントにみんなを招待したい。チケット代が負担なら、ぜひメール（プロフィール参照）で連絡してほしい。できる限り参加の機会を作るつもりだ
- IA チームは世界各地で分散開催のイベントを行うのか、それとも SF に集まって行うのか気になる。そして本当に人類にとって重要な仕事をしてくれていることに感謝したい
- IA で働いてみたかったが、採用の機会は本当に少ない
- 今回の成果を実現するために使われた技術的な裏話が気になる。たとえば Web クローリングの方法や保存方式など、技術的な詳細を聞いてみたい
- どんなイベントなのか具体的に知りたい
1兆ページの Web アーカイブという達成はすごい。だが……これを検索する方法がない。結局、知っている URL があるならそれを直接入力して探すしかなく、これではサービスの有用性が大きく損なわれる。たとえば特定のアーティスト名やファイル名、あるいは画像の内容まで全部検索できたらいいのにと思う
- それを全部インデックス化するのは本当に悪夢だろう
- この機能は Kagi のようなところでできた記憶があるが、今どこで使えるのか見つけられない
- その過程ではプライバシーの問題も考えなければならない。robots.txt の規定が無意味になり、サイトの削除も事実上さかのぼって不可能になる。結局は公開資料なので止めようがない面もあるが、IA 全体を検索可能にするのは本当にまずい考えだ
- 私は GPT Web 検索を使って、よく教材を IA で探してくれるよう頼んでいる。教材探しには向いているが、一般的な Web ページでどれだけ有用かはよくわからない
IA に追加で資料を提供したいなら、ArchiveTeam が関連するボランティアグループだ。IA にデータを送っている組織で、詳しくは archiveteam.org で確認できる
- 何が保存に値する資料なのかは、誰かが人の手で決める必要があるだろう。誰かが IA を自分の旅行写真の無料保存庫として使わないようにするには、フィルターが必要だ
Internet Archive は AI 企業と大きな契約を結ぶべきだと思う。たとえば、すべてのデータが入ったトラック1台分を AI 企業に提供する代わりに、IA が今後数年間運営できるだけの多額の寄付をしてもらう形だ。もし資金を提供しないならアクセス自体は許可するが、ダウンロード速度を極端に落として、全データを受け取るのに何年もかかるようにできる
- そうすると、これまで築いてきた公共財としての信頼が壊れてしまうだろう。大半の人は、自分が作ったコンテンツを IA が保存すること自体は構わないと思っているが、もしそれで金を稼ぎ始めたら間違いなく大きな反発が起きる
Internet Archive と Common Crawl が協力したことがあるのか気になる。両者の範囲やインフラを比較してみたい。目的は違うが、実質的には似たことをしている
- IA は CC で収集した WARC を含め、ArchiveTeam のような複数のグループから集められたデータを受け入れている
今週のオフラインイベントに出演するアーティスト Sam Reider は本当にすばらしい。とても楽しみだ
結局、Web 全体をクローリングしなくても、Archive にお金を払えばすべてのデータを確保できるという意味なのか気になる
関連ブログ記事で体験談を募集しているので参考までに
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
インターネットの歴史における本当に大きなマイルストーンだ

Internet Archiveに1兆件のWebページが保存される

Internet Archiveの1兆ページ達成が持つ意味

10月の記念イベント日程

10月7日 — The Vast Blue We: Del Sol Quartet at the Internet Archive

10月9日 — Sir Tim Berners-LeeとBrewster Kahleの対談

10月16日 — Library Leaders Forum 2025 (オンライン)

10月21日 — Doors Open 2025: 物理アーカイブツアー

10月22日 — The Web We’ve Built: 1 Trillion Celebration

10月27日 — Wayback to the Future: Celebrating the Open Web

デジタル記憶の未来

関連記事

1件のコメント

Hacker Newsの意見