1 ポイント 投稿者 GN⁺ 2024-05-20 | 1件のコメント | WhatsAppで共有
  • ウェブは永続的な記録のように見えるが、Pew Research Centerの標本では、2013〜2023年の間にかつて存在したWebページの 25% が2023年10月時点で消失しており、2013年のページは 38% がアクセス不能だった
  • 今回の集計における アクセス不能 は、内容変更やアクセシビリティの問題ではなく、ページまたはホストサーバーが消えたことを明確に示す 9種類のエラーコード に限定される
  • 2023年春に政府・ニュース・Wikipediaのリンクを点検したところ、ニュースWebページの 23%、政府Webページの 21%、English Wikipediaページの 54% が少なくとも1件以上のリンク切れを含んでいた
  • 当時TwitterだったXの公開ツイート約 500万件 を3か月追跡した結果、18% がもはや公開状態で見えなくなっており、そのうち60%はアカウントの非公開化・停止・削除が原因だった
  • Webページ、公共機関資料、ニュースリンク、Wikipedia参考文献、ソーシャル投稿全般でコンテンツが消失しており、古い資料ほど デジタル劣化 がより顕著になっている

10年の間に消えたWebページ

  • インターネットは書籍、画像、ニュース記事のような現代生活の資料保管庫として使われているが、一部のコンテンツは時間の経過とともに見えなくなる
  • Pew Research Centerは、2013〜2023年の間に存在していたWebページの標本を対象に、2023年10月時点でアクセス可能かどうかを確認した
  • 全体標本では、かつて存在していたWebページの 25% がすでにアクセス不能だった
    • 16% はルートドメインは動作しているが、個別ページがアクセス不能だった
    • 9% はルートドメイン全体がすでに動作しておらず、アクセスできなかった
  • 古いWebページほど消失した割合が高かった
    • 2013年スナップショットのWebページは 38% が2023年にアクセス不能だった
    • 2023年スナップショットのWebページは 8% がアクセス不能だった
    • 2021年スナップショットのWebページも約 5分の1 が2年後にはアクセス不能だった

アクセス不能の判定基準

  • この分析での アクセス不能 は、ページがすでに存在しないケースに限定される
    • ホストサーバーまたはページが消失し、通常は 404 Not Found のようなサーバーエラーが表示されるケースが該当する
  • 次のケースは今回の研究対象外
    • ページURLは存在するが、内容が元と大きく異なっている場合
    • ページは存在するが、視覚障害者など一部ユーザーにとって読みにくい、または読めない場合
  • Webページの状態判定には曖昧さも残る
    • エラー状態コードは数十種類あり、一部は恒久的な消滅なのか一時的な障害なのかが明確でない
    • 多くのサイトはセキュリティ上の理由で自動データ収集をブロックしている
  • そのため最も保守的な基準を適用し、ページまたはホストサーバーがもはや存在しない、あるいは非機能状態であることを明確に示す 9種類のエラーコード のみをアクセス不能として集計した
  • エラーコード全体の一覧は methodology に含まれている

Common CrawlベースのWebページ標本

  • 分析はインターネットアーカイブサービス Common Crawl から、2013〜2023年の各年のWebページを無作為に収集して行われた
  • 全体標本は約 100万件未満 のWebページで、年ごとに約 9万件 ずつ含まれていた
  • 2023年10月時点で、2013〜2023年の標本全体の 25% がアクセス不能だった
  • アクセス不能ページは2種類に分かれる
    • 個別ページは消えているが、ルートドメインは動作している場合: 16%
    • ルートドメイン全体がすでに動作していない場合: 9%
  • 時間が経過したスナップショットほどアクセス不能率が高く、2013年のWebページは 38% がもはや存在していなかった

政府Webサイトのリンク切れ

  • 政府Webサイト分析では、Common Crawlの2023年3〜4月スナップショットから約 50万件 のページを標本とした
  • 標本には連邦、州、地方など複数レベルの政府Webサイトが含まれる
  • 政府Webページ全体で見つかったリンクは 4,200万件 だった
    • 86% は同じWebサイト内の別ページへつながる内部リンクだった
    • 政府Webページの約 4分の3 は少なくとも1件以上のリンクを含んでいた
    • 中央値ベースでページあたりのリンク数は 50件 だった
    • 上位10%のページは 190件、上位1%のページは 740件 のリンクを含んでいた
  • リンクの形態も確認された
    • 大半は https:// で始まるセキュアHTTPページにつながっていた
    • 6% はPDFのような静的ファイルにつながっていた
    • 16% は本来のURLではなく別のURLにリダイレクトされた
  • リンクをたどって確認した結果、政府Webサイトのリンクの 6% はすでにアクセス不能だった
  • 調査した政府Webページ全体の 21% は少なくとも1件以上のリンク切れを含んでいた
    • 内部リンクと外部リンクの非機能率はほぼ同じだった
    • すべての政府レベルで少なくとも 14% のページにリンク切れがあった
    • 市政府ページがリンク切れ率で最も高かった

ニュースWebサイトのリンク切れ

  • ニュースWebサイト分析では、comScoreが「News/Information」に分類した 2,063件 のWebサイトから約 50万件 のページを標本とした
  • ページはCommon Crawlの2023年3〜4月スナップショットから収集された
  • ニュースサイト標本には、外部Webサイトへつながるリンクが 1,400万件以上 含まれていた
    • 内部リンクは収集されず、機能確認も行われなかった
    • ニュースページの 94% は少なくとも1件以上の外部リンクを含んでいた
    • 中央値ベースでページあたりのリンク数は 20件 だった
    • リンク数上位10%のページは 56件 のリンクを含んでいた
  • ニュースサイトのリンクの大半は https:// で始まるセキュアHTTPページにつながっていた
    • 12% はPDFのような静的ファイルにつながっていた
    • 32% は元のURLではなく別のURLにリダイレクトされた
    • 政府サイト外部リンクのリダイレクト率は 39% だった
  • ニュースサイトのリンクを追跡した結果、全リンクの 5% がアクセス不能だった
  • 標本ニュースページの 23% は少なくとも1件以上のリンク切れを含んでいた
    • トラフィック上位20%のニュースサイトのページでは 25% が少なくとも1件のリンク切れを含んでいた
    • トラフィック下位20%のニュースサイトのページでは 26% が少なくとも1件のリンク切れを含んでいた
    • トラフィック規模によるリンク切れ率の差はほとんどなかった

Wikipedia参考文献リンク

  • 分析ではEnglish Wikipediaのページ 5万件 を無作為に収集し、「References」セクションのリンクを点検した
  • 標本ページの 82% は、Wikipedia外部のWebページへつながる参考文献リンクを少なくとも1件含んでいた
  • 全標本には参考文献リンクが 100万件強 含まれていた
  • 一般的なページの参考文献リンク数は 4件 だった
  • Wikipedia参考文献リンク全体の 11% がすでにアクセス不能だった
  • 参考文献リンクを持つ元ページの約 2% は、すべてのリンクが切れているかアクセス不能だった
  • さらに 53% のページは少なくとも1件以上のリンク切れを含んでいた

X/Twitter投稿の消失

  • ソーシャルメディア分析は、当時TwitterだったXで2023年3月8日〜4月27日の間に公開ツイート約 500万件 をリアルタイム収集して行われた
  • 収集にはTwitter Streaming APIが使われ、30分ごとに公開ツイート 3,000件 を収集した
  • 追跡は2023年6月15日まで続けられ、各ツイートがサイト上で引き続きアクセス可能かどうかを毎日確認した
  • 観察終了時点で、最初に収集したツイートの 18% がもはや公開状態で見えなくなっていた
    • 60% は元の投稿アカウントが非公開化、停止、削除されたケースだった
    • 40% はアカウントは残っているが、個別ツイートが削除されたケースだった

より頻繁に消えたツイートの特徴

  • 特定言語で書かれたツイートは消える可能性が高かった
    • トルコ語ツイートはほぼ半分が追跡終了時点でアクセス不能だった
    • アラビア語ツイートもこれよりやや低い割合で消失した
    • 要約すると、トルコ語またはアラビア語ツイートの 40%以上 が3か月以内に見えなくなった
  • デフォルトプロフィール設定を使うアカウントのツイートもより頻繁に消えた
    • デフォルトのプロフィール画像を使うアカウントのツイートは 半分以上 がすでにアクセス不能だった
    • デフォルトの自己紹介欄を使うアカウントのツイートは 3分の1以上 がすでにアクセス不能だった
    • こうしたアカウントのツイートは、個別ツイート削除よりもアカウント削除や非公開化によって消える傾向があった
  • 未認証アカウントのツイートも削除または除去される可能性がより高かった
  • 消えたツイートは概してより新しく、フォロワーが比較的少なく、活動量が中程度のアカウントから投稿されていた
    • 見えなくなったツイートを投稿したアカウントは、残っているツイートを投稿したアカウントより平均で約 8か月 新しいアカウントだった
  • リツイート、引用ツイート、元ツイートは全体平均と大きな差はなかった
  • 返信は相対的に除去されにくく、追跡終了時点でのアクセス不能率は 12% だった

ツイートが消える速度と再出現

  • 除去されるツイートの大半は投稿直後に比較的早く消える
  • 生存分析ベースでのツイート除去時点は次の通りだった
    • 投稿後1時間以内に 1% が除去された
    • 1日以内に 3% が除去された
    • 1週間以内に 10% が除去された
    • 1か月以内に 15% が除去された
  • 最終的に除去されたツイートの半分は、投稿後 6日 以内にアクセス不能になった
  • 最終的に除去されたツイートの 90% は、投稿後 46日 以内にアクセス不能になった
  • ツイートが常に永久に消えるわけではない
    • 収集されたツイートの 6% は消えた後に再びアクセス可能になった
    • アカウントが非公開から公開に戻ったり、停止から復旧したりしたことが原因の可能性がある
    • 再表示されたツイートの 90% は、追跡終了時点でもTwitter上でアクセス可能だった

1件のコメント

 
GN⁺ 2024-05-20
Hacker Newsのコメント
  • Webページの38%が消えたこと以上に大きな問題は、多くの団体・グループ・事業者が今やほぼFacebookページしか使っておらず、Facebookの外にはWeb上の存在感がないことだ
    結局、彼らとやり取りするにはFacebookアカウントが必須になる

    • フォーラムもまったく同じことになった
      今では全部 subreddit、Facebookグループ、Discordのチャットに移ってしまい、価値ある情報がそうしたグループの中に隠れているのが本当に残念だ
    • Facebookは遠く離れた家族と連絡を取るためにしか使っていない
      1日に1回何か起きていないかを見る程度だが、アカウントがあるならこのリンクがその作業をずっと簡単にしてくれる: https://www.facebook.com/?filter=friends
    • ある程度の規模の事業者でFacebookだけを使っているところが実際にあるのか疑問だ
      自分の周辺の地域店舗は Google Maps にかなり情報が載っているし、Webサイトがあってもたいてい古いが、直接電話すれば知りたいことはだいたい解決する
    • 昔のWebの38%は多様で、隠れた意図が少なく、良い意味でのアマチュアたちが作った空間だった
      今はずっと大きくなったが、はるかに同質的なWebになっていて、その割合はたぶん0.00001%くらいしかないだろうし、Web 1.0サイトのほうが今日の閉鎖的な「グループページ」よりましだと思う
    • デジタルメニューをFacebookにしか載せていないレストランに行ったことがある
      Facebookを使っていないと言ったら、変わった人を見るような目で見られた
  • それでも、まともなWebサイトはいくらかは古いコンテンツを保存しようと努力している
    たとえば 9/11 の攻撃当時の CNN と BBC の報道ページが残っている: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
    http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
    多くのリンクがちゃんと動くとは期待しにくいが、昔のWebがどんな姿だったのかを見るだけでも興味深い

    • 古い BBC の選挙報道のインタラクティブ要素の一部は今でもほぼ動く
      20年後に今日の多くのサイトがそういう形で残っているとは想像しにくく、技術的に不可能だからというより、ワープロの発明後に文章の質が下がったのと似ているように見える
      今はあらゆるものが管理され構造化されていて、うまく説明できない形で良いものを作ることを可能にしていた自由さや余白が失われた感じがする
  • 古いコンテンツだけでなく、さまざまなコンテンツを保存する取り組みを支援するなら、Internet Archive(archive.org)に数ポンドでも寄付するとよい
    そして価値があると感じるものは、いつか消える場合に備えて、できる限りローカルのコピーを作っておくのがよい
    20年以上のインストール移行を経て持ち運んできた自分のブックマークファイルの技術ページのかなりの部分は、今では元のページが消える直前の最後の完全バックアップにつながっている
    Internet Archive はみんなにとって非常に大きな恩恵だ

    • ブックマークを使いすぎていたことに気づいた
      今では、後で参照したい洞察に富んだ文章、技術情報、ユーモアのようなものがあれば、Webページを PDF などで保存している
      ブックマークは最新版にだけアクセスする価値があるものに向いている。銀行サイト、ショッピングサイト、会社のリモートデスクトップシステムのようなものだ
    • Internet Archive は2つの独立した組織に分かれたほうがよいと思う
      1つは単純にWebサイトを保存し、もう1つは電子書籍やビデオゲームに関する積極的な知的財産権の試験のような残りの仕事を担う形だ
      そうすれば「もう片方」が訴訟で崩れても、Webサイトの保存は残せるかもしれない。前者は人類にとって重要なサービスなので寄付もしているが、将来が心配だ
  • 2019年からニュースWebサイトを運営している
    毎時クローラーがリンク切れを探し、1日に1件ほど archive.org のリンクに差し替えている
    いちばん笑えるのは、選挙の翌日に候補者のWebサイトが全部空のページになることで、いちばん悲しいのは、毎週午前3時から5時にかけて政府のWebサイトが落ちることだ

    • 面白いが、そのクローラーは毎時間すべてのリンクを確認するのか、それともバッチ単位に分けて回しているのか?
  • むしろもっと高くないことに驚いた
    2013年は初期インターネットの趣味サイト時代がとっくに過ぎた後で、新しいサイトの大半が事業目的だった時期だ
    事業者の寿命を考えると、11年後にはもっと多くのサイトが消えているはずだと予想していた
    おそらく Angelfire や Geocities のようなコミュニティ構築の場が大量に死んだことが大きな比重を占めていたのかもしれない
    特に、Webサイトがどれくらい長く存続するかをグラフにしたら面白そうだ。初期のコンテンツはかなり多く残っていて、2008〜2018年ごろがサイト消滅のピークなのではないかと思う

    • 初期のコンテンツの多くは、すでにずっと前に死んだプラットフォーム上にあった
      たとえば Geocities、卒業後に削除される大学提供の FTP フォルダ、Earthlink・Juno・Comcast のような ISP 提供の FTP フォルダで、ほとんどは削除された可能性が高い
  • すべてが永遠に残るべきだとは思わない
    少し前に90年代に作った自分の最初の .com を偶然見つけたのだが、Angelfire にホスティングされ、archive.org が律儀に再保存していて、結果は想像どおりだった
    小学4年生のときに友人と作ったWebページで、当時の基準では悪くなかったが、今の基準では文脈を理解しても許容しがたい内容があった
    凄惨というほどではなかったが、90年代の小学生らしい無邪気な無知から出た趣味の悪い内容で、たぶん良心から完全に消えることはないので、ただ受け止めつつ誰にも見られないことを願うしかない

    • 自分にも似たようなものがある
      慰めになるなら、私たちはみんなただの子どもかティーンエイジャーで、世界を学んでいる途中だった
      自分たちの後の世代は、インターネットがもっと身近で、時にはもっと永続的な空間になった後に育ったのだから、なおさら気の毒に感じる
    • その痛みはわかる
      幸い、archive もときどき資料を取り下げてくれる
  • インターネット上のあらゆるものは本質的に一時的である
    それに抗うより受け入れるほうがよく、何かを保存したいならオフラインのコピーを作ればよい
    PDF/A、特に -1 と -2 バージョンは保存のために明示的に設計された形式で、静的コンテンツにはよく合う
    ただ、ミラーリングがウェブスタック、つまり HTTP/HTML にもっと簡単に組み込まれていないのは残念だ。ローカルコピーを代替経路として含んだリンクを簡単に作れたなら、リンク切れはずっと心配せずに済んだはずだ
    Wikipedia が archive.org 経由ですべてにリンクするやり方は、個人的にはやや場当たり的に見える

  • 正直、その程度まで低いことに驚いた
    今どきのウェブの大半はSEO ゴミのように見える

    • ときどき何か実験して小さなウェブサイトを公開し、その後忘れていて、もう関係ないと判断したら下げてしまうことがある
      それ自体は悪いことではない
      それでも、価値あるコンテンツのために私たちの集合的記憶を守ってくれるウェブアーカイブのようなものがあるのは素晴らしい
      特に、出来事が起きた当時に書かれた正確な記録が、後から変えられないどこかに保存されてほしい。最近は歴史を書き換えることが流行っているようなので、当時の原記録を保存することでそれに対抗できる
      たとえその記録が完全に正確でなかったとしても、当時の当事者たちが何を真実だと信じていたのかを理解する助けになる
    • あるものは今でも存在しているが、Google にもはや表示されないだけだ
  • これは、私たちが collectively もっと上手く避けるべきだったインターネットの深刻な失敗だと思う
    多くの場合、コンテンツ自体はどこかにまだあり、単にリンクだけが壊れている可能性が高い
    図書館で使われる DOI システムのような二層システムがこういう場合に役立つかもしれない: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
    ただ、URL の有用性と利便性を保つには自動的に処理される必要があるだろうが、それがどう可能なのかはよく分からない

  • これはバグではなく機能だ
    忘れも許しもしない世界に生きるとしたら恐ろしいだろう
    価値あるコンテンツを保存するのにある程度の努力が必要だという点もよい。そうすればその価値がより認められる

    • 「忘れも許しもしない世界」は別の問題で、主としてプライバシーに関わる問題だと見なせる
      「価値あるコンテンツは保存に努力が必要であるべきだから、より価値が認められる」という論理は、ほとんどあらゆるものが高価であるべきだという主張のように見える
      安いストレージは私たちがファイルの価値を認めなくするから悪く、高価な医療は臓器の価値を実感させるから良い、というようなものだ
      難しいのは、将来どんなコンテンツが価値あるものと見なされるかを見通すことだ。これまでどの人類文明もそれをきちんと見抜けず、たいていは王たちがいかに偉大だったかを保存することに集中してきた
    • Apple が NeXT を買収した日、インターネットのどこかでとても面白い文章を読んだ
      「Macintosh の子らよ、Unix の前にひざまずけ…」で始まり、文章全体が聖書のような文体を保ちながら、なぜ Mac が NeXT に征服されたのかを説明していた
      本当に素晴らしい文章で、ときどきインターネットで探し直してみるのだが、何が失われたのかは、失われたと知らなければ分かりにくい
    • この 5000 年間、私たちはどこで生きてきたと思うのか?
      Ur のごみの山から発掘された楔形文字の粘土板があり、そのおかげで Sumer についてのわずかな知識が残っている
      文字の発明は忘却を不可能にし、Jack Goody、James Carey、David Olson、Barry Powell のような人類学者や、Walter Ong のような著者がこれを深く研究してきた
      私たちは実際、ほとんどが過去に閉じ込められた恐ろしい世界に生きており、文化的複雑性はタマネギの皮のように幾重にも積み重なる
      誰でも過去に立ち返ってそれを懐かしむことはできるが、保存された知識を通じて触れる過去は、直接体験していない人々にとって異なる意味を持つ
      印刷術以後、私たちはずっと情報インフレの中で生きてきた。中世の学者たちは印刷術のせいで誰でも本を読み書きできると不満を述べ、スコラ学者たちは俗語の台頭に衝撃を受け、Michelangelo は Flemish の画家たちの空虚な芸術に不満をこぼしていた
      ここで重要なのは、劣化が起こる速度だ。記事では 2013 年に存在していたサイトの 38% が消えたとしているが、たった 10 年だ
      そのうちどれだけがノイズで、どれだけが有用な情報、あるいは少なくとも興味深いコンテンツだったのか、私たちには分からない。すでに消えてしまったからだ
      大規模なウェブスクレイパーがどれだけ保存しているのか、Google や Twitter がどれだけ保管しているのかも分からない
      価値あるコンテンツをどう定義するのか? 単に半裸の女優の写真で 100 万ビューのツイートなのか、それとも 300 ビューの重大な発見についてのツイートなのか?
      インターネットが新聞・書籍・雑誌・TV・ラジオの編集者という門番を打ち壊したとき、私たちは無限に喜んだが、その結果、ノイズ、陰謀論、ミーム、TikTok などに飲み込まれた
      問題は、私たちに降り注ぐ膨大な情報量をほとんど処理しきれず、人も多すぎて好みもあまりに違うため、何に価値があり何に価値がないかについて合意しにくいことだ
      あなたの言う「機能」は設計上そうかもしれないが、有用であるとか道徳的に正しいという意味ではない