2013年に存在していたウェブページの38%は10年後にはアクセス不能に
(pewresearch.org)-
インターネットの膨大さとコンテンツの消滅
- 数百億のウェブページが存在するインターネットは、現代生活における巨大な保管庫である。
- しかし、ユーザーが依存するコンテンツは時として消えてしまう。
- Pew Research Centerの新たな分析によると、オンラインコンテンツは非常に儚いことが示されている。
- 2013年から2023年の間に存在していたすべてのウェブページの4分の1が、2023年10月時点でもはやアクセス不能な状態にある。
- これは主に、特定のウェブページが削除または除去されたためである。
-
デジタル劣化の発生
- 政府およびニュースサイト、そしてWikipediaページの「参考文献」セクションを調査した。
- ニュースのウェブページの23%が、少なくとも1つ以上のリンク切れを含んでいる。
- 政府ウェブサイトの21%が、少なくとも1つ以上のリンク切れを含んでいる。
- Wikipediaページの54%が、すでに存在しないページへつながるリンクを含んでいる。
- 政府およびニュースサイト、そしてWikipediaページの「参考文献」セクションを調査した。
-
ソーシャルメディアにおけるデジタル劣化
- 2023年春のあいだにソーシャルメディアプラットフォームX(当時のTwitter)でツイートのリアルタイムサンプルを収集し、3か月間追跡した。
- ツイートのおよそ5分の1は、投稿から数か月後にはもはや公開状態で見られなくなる。
- このケースの60%は、元のツイートを投稿したアカウントが非公開、停止、または完全に削除されていた。
- 残る40%は、アカウントは存在するものの個別のツイートが削除されていた。
- 2023年春のあいだにソーシャルメディアプラットフォームX(当時のTwitter)でツイートのリアルタイムサンプルを収集し、3か月間追跡した。
-
非公開リンクとウェブページの定義
- インターネット上に存在していたが現在はアクセスできないページの定義には、いくつかの種類がある。
- ページがもはやホストサーバー上に存在しない、またはホストサーバー自体がすでに存在しない。
- ページのアドレスは存在するが、コンテンツが変更されている。
- ページは存在するが、特定のユーザー(例: 視覚障害者)には読みづらい。
- このレポートは最初の定義、つまりもはや存在しないページに焦点を当てている。
- インターネット上に存在していたが現在はアクセスできないページの定義には、いくつかの種類がある。
-
過去10年間のウェブページ
- Common Crawlアーカイブから無作為に約100万件のウェブページサンプルを収集した。
- 2013年から2023年までに収集されたすべてのページの25%が、2023年10月時点でもはやアクセス不能な状態にある。
- 2013年に収集されたページの38%は、2023年にはもはやアクセス不能な状態にある。
- Common Crawlアーカイブから無作為に約100万件のウェブページサンプルを収集した。
-
政府ウェブサイトのリンク
- 2023年3月/4月に収集された政府ウェブサイトの約50万ページをサンプリングした。
- ページの86%は内部リンクを含み、そのうち6%はもはやアクセス不能な状態にある。
- 全体として、調査した政府ウェブページの21%が少なくとも1つ以上のリンク切れを含んでいる。
- 2023年3月/4月に収集された政府ウェブサイトの約50万ページをサンプリングした。
-
ニュースウェブサイトのリンク
- 2023年3月/4月に収集されたニュースウェブサイトの約50万ページをサンプリングした。
- ニュースサイトの94%は少なくとも1つ以上の外部リンクを含み、23%のページが少なくとも1つ以上のリンク切れを含んでいる。
- 2023年3月/4月に収集されたニュースウェブサイトの約50万ページをサンプリングした。
-
Wikipediaの参考リンク
- 50,000件の英語版Wikipediaページを無作為にサンプリングした。
- 収集されたページの82%が少なくとも1つ以上の参考リンクを含み、その参考リンクの11%がもはやアクセス不能な状態にある。
- 50,000件の英語版Wikipediaページを無作為にサンプリングした。
-
Twitterの投稿
- 2023年春に500万件のツイートを収集し、3か月間追跡した。
- 収集されたツイートの18%が、追跡期間終了時にはもはや公開状態で見られなくなっていた。
- 削除されたツイートの60%は、アカウントが非公開、停止、または削除されていた。
- ツイートの1%は1時間以内に削除され、3%は1日以内、10%は1週間以内、15%は1か月以内に削除される。
- 2023年春に500万件のツイートを収集し、3か月間追跡した。
-
ツイートの生存分析
- 投稿されたツイートの半分は、投稿後最初の6日以内に消える。
- ツイートの90%は、投稿後46日以内にアクセス不能な状態になる。
- 削除されたものの、後に再び公開されたツイートが6%存在する。
1件のコメント
Hacker Newsの意見
Hacker Newsコメントまとめ要約
Facebookページの問題点
アーカイブの取り組み
Internet Archiveの支援
ニュースWebサイト運営の経験
Webサイト寿命グラフ
過去のWebサイトの問題点
インターネットの一時性
SEOの問題
リンク切れの問題
忘却と許しの重要性