1 ポイント 投稿者 GN⁺ 2024-05-20 | 1件のコメント | WhatsAppで共有
  • インターネットの膨大さとコンテンツの消滅

    • 数百億のウェブページが存在するインターネットは、現代生活における巨大な保管庫である。
    • しかし、ユーザーが依存するコンテンツは時として消えてしまう。
    • Pew Research Centerの新たな分析によると、オンラインコンテンツは非常に儚いことが示されている。
      • 2013年から2023年の間に存在していたすべてのウェブページの4分の1が、2023年10月時点でもはやアクセス不能な状態にある。
      • これは主に、特定のウェブページが削除または除去されたためである。
  • デジタル劣化の発生

    • 政府およびニュースサイト、そしてWikipediaページの「参考文献」セクションを調査した。
      • ニュースのウェブページの23%が、少なくとも1つ以上のリンク切れを含んでいる。
      • 政府ウェブサイトの21%が、少なくとも1つ以上のリンク切れを含んでいる。
      • Wikipediaページの54%が、すでに存在しないページへつながるリンクを含んでいる。
  • ソーシャルメディアにおけるデジタル劣化

    • 2023年春のあいだにソーシャルメディアプラットフォームX(当時のTwitter)でツイートのリアルタイムサンプルを収集し、3か月間追跡した。
      • ツイートのおよそ5分の1は、投稿から数か月後にはもはや公開状態で見られなくなる。
      • このケースの60%は、元のツイートを投稿したアカウントが非公開、停止、または完全に削除されていた。
      • 残る40%は、アカウントは存在するものの個別のツイートが削除されていた。
  • 非公開リンクとウェブページの定義

    • インターネット上に存在していたが現在はアクセスできないページの定義には、いくつかの種類がある。
      • ページがもはやホストサーバー上に存在しない、またはホストサーバー自体がすでに存在しない。
      • ページのアドレスは存在するが、コンテンツが変更されている。
      • ページは存在するが、特定のユーザー(例: 視覚障害者)には読みづらい。
    • このレポートは最初の定義、つまりもはや存在しないページに焦点を当てている。
  • 過去10年間のウェブページ

    • Common Crawlアーカイブから無作為に約100万件のウェブページサンプルを収集した。
      • 2013年から2023年までに収集されたすべてのページの25%が、2023年10月時点でもはやアクセス不能な状態にある。
      • 2013年に収集されたページの38%は、2023年にはもはやアクセス不能な状態にある。
  • 政府ウェブサイトのリンク

    • 2023年3月/4月に収集された政府ウェブサイトの約50万ページをサンプリングした。
      • ページの86%は内部リンクを含み、そのうち6%はもはやアクセス不能な状態にある。
      • 全体として、調査した政府ウェブページの21%が少なくとも1つ以上のリンク切れを含んでいる。
  • ニュースウェブサイトのリンク

    • 2023年3月/4月に収集されたニュースウェブサイトの約50万ページをサンプリングした。
      • ニュースサイトの94%は少なくとも1つ以上の外部リンクを含み、23%のページが少なくとも1つ以上のリンク切れを含んでいる。
  • Wikipediaの参考リンク

    • 50,000件の英語版Wikipediaページを無作為にサンプリングした。
      • 収集されたページの82%が少なくとも1つ以上の参考リンクを含み、その参考リンクの11%がもはやアクセス不能な状態にある。
  • Twitterの投稿

    • 2023年春に500万件のツイートを収集し、3か月間追跡した。
      • 収集されたツイートの18%が、追跡期間終了時にはもはや公開状態で見られなくなっていた。
      • 削除されたツイートの60%は、アカウントが非公開、停止、または削除されていた。
      • ツイートの1%は1時間以内に削除され、3%は1日以内、10%は1週間以内、15%は1か月以内に削除される。
  • ツイートの生存分析

    • 投稿されたツイートの半分は、投稿後最初の6日以内に消える。
    • ツイートの90%は、投稿後46日以内にアクセス不能な状態になる。
    • 削除されたものの、後に再び公開されたツイートが6%存在する。

1件のコメント

 
GN⁺ 2024-05-20
Hacker Newsの意見

Hacker Newsコメントまとめ要約

  • Facebookページの問題点

    • 多くの団体や企業がFacebookページだけを使い、他のWeb上の存在がなくなっている。Facebookアカウントが必須になる。
  • アーカイブの取り組み

    • CNNやBBCのようなWebサイトは、過去のコンテンツをアーカイブしようと努力している。例: 9/11テロ関連の報道。
  • Internet Archiveの支援

    • Internet Archive(archive.org)に寄付して古いコンテンツの保存を支援する必要がある。重要なコンテンツはローカルコピーを作っておくのがよい。
  • ニュースWebサイト運営の経験

    • 2019年からニュースWebサイトを運営しており、毎時間クローラーで死んだリンクを見つけてアーカイブリンクに置き換えている。選挙の翌日には候補者のWebサイトが消えていることが多い。
  • Webサイト寿命グラフ

    • 2013年以降、多くのWebサイトが消えたと予想される。特にコミュニティサイト(Angelfire、Geocitiesなど)の消滅が大きく影響している。Webサイトの寿命をグラフにすると興味深いだろう。
  • 過去のWebサイトの問題点

    • 90年代にAngelfireでホスティングされていた最初の.com Webサイトを再び見ることになった。当時は問題なかったが、現在の基準では不適切な内容が多い。
  • インターネットの一時性

    • インターネットの本質的な一時性を受け入れるべきだ。アーカイブしたいならオフラインのコピーを作るのがよい。PDF/A形式はアーカイブに適している。
  • SEOの問題

    • 現在のWebの大部分はSEOスパムで満ちている。
  • リンク切れの問題

    • インターネットの大きな問題であり、コンテンツ自体はまだ存在していてもリンクが切れている場合が多い。図書館のDOIシステムのような二段階システムが役立つかもしれない。
  • 忘却と許しの重要性

    • すべてが永遠に残る世界は恐ろしいだろう。価値のあるコンテンツを保存しようとする努力が必要であり、その価値はより高く評価される。