3 ポイント 投稿者 GN⁺ 2025-08-18 | 1件のコメント | WhatsAppで共有
  • ArchiveTeam は、すべての goo.gl 短縮リンク のアーカイブを無事完了
  • ArchiveTeam Warrior という仮想アーカイブプログラムを通じて、誰でもアーカイブプロジェクトに参加可能
  • この Warrior は Windows、OS X、Linux 環境で 特別なリスクなく実行 できる
  • ユーザーは 簡単な設定で プロジェクトを選択し、活動に参加できる
  • 特別な技術がなくてもアーカイブ活動に役立てる 簡単で直感的な方法 を提供

ArchiveTeam Warrior の紹介

  • ArchiveTeam Warrior は、誰でも手軽に使える 仮想アーカイブアプライアンス
  • ユーザーは Warrior を実行して ウェブサイトなどをダウンロード し、それを ArchiveTeam のアーカイブへアップロードする作業に参加できる
  • Warrior は実際のコンピューター環境に危険を与えず、インターネット帯域幅と少量のディスク容量だけを利用 する
  • Windows、OS X、Linux 環境をすべてサポートし、VirtualBox、VMware などの仮想マシンプログラムが必要

VirtualBox を使った利用方法

  • Warrior アプライアンス(357MB)をダウンロード
  • VirtualBox で File > Import Appliance メニューをクリックし、ダウンロードしたファイルを読み込む
  • 仮想マシンを起動すると、最新アップデートを自動で受け取り、ウェブブラウザーの利用を求められる
広告

Warrior 実行後の流れ

  • Settings ページにアクセスして確認
  • ユーザー名を選択し、leaderboard に進捗を表示
  • All projects タブで希望するプロジェクトを選んで参加し、最も緊急なプロジェクトに参加する ArchiveTeam’s Choice も選択可能

参加の利点

  • 特別な技術や複雑な手順なしに、誰でも簡単にアーカイブプロジェクト活動へ貢献できる
  • ユーザーの アーカイブ活動実績 はリーダーボードに表示され、モチベーション向上や協業の効果がある

1件のコメント

 
GN⁺ 2025-08-18
Hacker Newsの意見
  • ArchiveTeamがこういうプロジェクトをやるたびに本当に驚かされる。数年前、以前勤めていた動画プラットフォームがまもなくサービス終了を発表したとき、ArchiveTeamのあるメンバーとつながる機会があり、データ保存の作業に関心を持っていると聞いた。その人に少し助言しつつ(アーカイブ時に問題になりそうなサーバーエンドポイントの情報など)、自分のEC2インスタンスをいくつか一時的に貸した。サーバーは自分の所有だったので何が起きているか見られたのだが、2分もしないうちにインスタンスは完全に準備され、すぐに動画のアーカイブを始め、各インスタンスは重複なしでそれぞれ別の動画を効率よくダウンロードしていた。ArchiveTeamは理念が素晴らしいだけでなく、その実行方法の効率性が本当に印象的だ

  • タイトルが正確ではない。実際には Archiveteam.org であって、Archive.org ではない。The Internet Archive は保存領域を提供しているが、実際のアーカイブ作業は Archiveteam のメンバーが行っている

    • Archiveteam の貢献が正確には何なのか気になる。よく分からない。結局のところ、アーカイブ対象とアーカイブサーバーの間で、特に必要のない仲介役をしているようにも見える。何か見落としているのだろうか
  • 関連情報を共有したい。「リンク切れとの戦いに参加する」(リンク)、Google の goo.gl ポリシー変更に関する複数の HN 議論スレッド(2018年~2025年の関連記事まとめ, こちら, こちら, こちら, こちら, こちら, こちら)。さまざまな議論があるので参考になればと思う

  • Google の最新アップデートを共有する Google ブログ更新リンク

    • ああ、Google という本当に信用できない会社から出てきた極めて信用できない情報だと思っているので、今回の「更新」もまったく信じていない
    • Google の告知によれば、短縮リンク(goo.gl リンク)は「8月25日以降は動作せず、別の URL 短縮サービスへ移行することを推奨する」というが、だとすると実際に一部のリンクだけ残す意味が薄れるのではないか。すでに文書に埋め込まれていて修正できない短縮リンクは、結局すべて切れてしまうということではないか?
    • 結局のところ何の意味があるのか疑問だ。すでにほとんど使われていない(または低アクティビティの)既存リンクなら、リダイレクトを維持してもそれほどコストはかからないはずなのに、なぜわざわざ停止しなければならないのか理解できない(こうした方針変更で高トラフィックのリンクだけリダイレクトを続けるのも含めて)
    • これもよく分からない。データベース全体を保持するのは本当にそんなにコストがかかることなのだろうか。どうせ一部は引き続き保持しなければならないのに
  • reddit や twitter 全体をアーカイブしている人はいるのだろうか? たとえ彼らの Terms が変わってそれを許可しなくなったとしても、気になる

    • reddit には以前 Pushshift というプロジェクトがあった。reddit API が変更される前までは、このデータは the-eye という別のデータアーカイバー/保存グループからダウンロード可能だった。twitter については、自分の知る限りそういうものはない。しかも Wayback Machine でツイートをアーカイブできなくなってからすでに何年も経っている
    • Academictorrents では、API 制限後でも reddit の全 submission と comment の月次ダンプを入手できる
    • OpenAI に一度聞いてみるのも手だ
  • ページがよく分からない。データセットの一覧(たぶん?)が載っているが、91 TiB まであって容量が大きく見える。Google の短縮リンクと対象 URL の一覧だけで 91 TiB も必要になるとは思えない。仕組みを知っている人はいる?

    • 自分でもざっくり計算してみた。Google 検索で無作為に拾った URL は 705 バイト、goo.gl の短縮リンクは 22 バイト、単純に ID だけ保存するなら 6 バイトだった。短いものや長いものもあるだろうが、全体として大まかに計算すると、数百億から数兆件の URL に相当する容量だと分かる
  • 今回のアーカイブに少しでも貢献できてうれしい

    • 自分の名前がリーダーボードに載っているのを見ると、私もうれしくなる。実際にはただ docker container を1日セットアップして、そのまま忘れていただけなのだが
  • どれだけ多くのリンクが非公開の YouTube 動画や Google ドキュメントなどに向いているのか気になる

    • 内心では「じゃあ今ダウンロードして自分で検索すればいいわけだ」と冗談を言おうと思ったが、実際には ここ を見ると "Access-restricted-item: true" となっていてアクセス制限がある。容量も 10GB ずつ提供されている
  • 「all」というのが、実際に公開されているすべての URL を指すのか、それとも URL ネームスペース全体を総当たりで試したのか気になる

    • 実際には、ボランティアがクライアントを自分で実行し、IP ブロックを避けながら URL ネームスペース全体を総当たりで試す方式だった
    • 公開されていた goo.gl URL は、すでに Internet Archive と Common Crawl のクローリングにすべて含まれている