1 ポイント 投稿者 GN⁺ 2025-12-15 | 1件のコメント | WhatsAppで共有
  • アンソニー・ボーデインの消えたLi.st投稿を公開Webクローリングデータから復元したプロジェクト
  • Common CrawlInternet Archive を活用し、li.stドメインに残存するHTMLを探索・復元
  • Pythonスクリプト commoncrawl_search.py を使って、公開S3バケット上のHTML文書を自動収集
  • 多くの投稿本文は復元されたが、画像ファイルの大半は失われており、一部項目のみHTML形式で保存
  • 復元結果を GitHubリポジトリ で公開し、今後コミュニティが追加の復元・保存に参加できるようにした

プロジェクト概要

  • ボーデインの失われた Li.st投稿 を復元するため、公開クローリングデータを活用した試み
    • 既存の GReg TeChnoLogY サイトで一部一覧が公開されているのを見て、復元の可能性を探った
    • セキュリティおよびクローリング分野での経験をもとに、公開アクセス可能なデータアーカイブ のみを使用
  • Common Crawl の文書インデックスを検索し、https://li.st/Bourdain* パスのデータを収集
    • Python 3.14.2環境で requirements.txt の依存関係をインストール後に実行
    • コマンド例: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

復元の過程とツール

  • commoncrawl_search.py は特定のデータセットにインデックス要求を送り、一致した項目を 公開S3バケットからダウンロード
    • HTML文書はサイズが小さく、復元しやすい
  • 復元された成果物は GitHubリポジトリ (https://github.com/thecsw/bourdain) に整理
    • 各HTMLファイルは原文レイアウトを維持しつつ、内容を改変せずに再構成
    • AI生成物ではなく、コードの一部のみ自動化ツールで作成

復元された主な投稿

  • things-i-no-longer-have-time-or-patience-for: ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ などの一覧
  • nice-views: モンタナ、プエルトリコ、ナクソス、LA、イスタンブールなど旅先の風景
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ など
  • objects-of-desire: ヴィンテージのサングラス、トレパニング器具、BJJ道着、Kramerのナイフなど個人的な収集品
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: サマセット・モーム、グレアム・グリーンなどの作家によるスパイ小説の推薦
  • hotel-slut-that-s-me: 世界各地のホテル一覧と個人的な愛着の表現
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures など、ニューヨーク関連のリストが多数
  • 投稿の大半は テキスト復元に成功 したが、画像ファイルはすべて失われている

復元できなかった項目

  • David Bowie Related (2016年1月14日) の投稿のみ、Common Crawlでは見つからなかった

プロジェクトの意義と今後の計画

  • 復元作業を デジタル考古学的な試み と位置づけ、過去のWebコンテンツ保存の可能性を示した
  • 画像の復元は難しい一方、テキストアーカイブの構築には成功
  • 公開Gitリポジトリ を通じて、誰でも追加の復元に参加可能
  • 今後は 公共アーカイブの構築 と長期保存の方策を模索する必要性を提起

1件のコメント

 
GN⁺ 2025-12-15
Hacker Newsのコメント
  • 自分も同じ rabbit hole にハマって、先週まったく同じことをやった
    自分が試したリンク
    もしそれを見て着想を得たなら言及してくれるとうれしいし、そうでないなら、こうして独立に同じアイデアにたどり着いたのは興味深い

    • おお、知らなかった! 自分はGregの元の投稿を見て始めたんだけど、彼があとで、すでにCommon Crawlを調べた人がいたと教えてくれた
      ともあれ、gitとウェブページの両方を更新して、君の作業を 明示的に言及 しておいた。君のサイトにも直接リンクしたので、問題なければ教えてほしい
  • この記事 の続報として、時の流れとともに失われたと思われていた Anthony Bourdainのli.st投稿 をすべて復元した
    Tonyのような人は本当に他にいないと思う

    • ほぼ全部復元したけれど、記事によればまだ1件足りない — “David Bowie Related”(2016年1月14日付)
  • 彼のシリーズは本当に好きだったけど、自分の故郷を訪れたときに完全に 誤って描写 していてがっかりした
    反体制的で非主流な視点を理解はするけれど、彼は地元の詐欺師や潰れかけたレストランを経営していた人たちとつるんで、彼らを「進歩的な料理人」として紹介していた
    その後、彼の他のエピソードも見直すようになった

    • わかる。Vice News もシカゴで似たようなことをして、地元の人たちに嫌われるようになった
    • 上海でも同じことがあった
    • 自分も似たように感じた。彼の番組は興味深いけれど、裕福な白人男性がどこででも現地事情を専門家のように語る 微妙な傲慢さ があった。食べ物はしばしば二の次だった
    • どの都市だったのか気になる。いくつかの地域でもそういう感じを受けたことがあって、制作チームがどんな基準で場所を選んでいるのかいつも不思議だった
    • おそらく彼自身が人々の政治的背景を直接確認していたわけではないと思う。制作チームが事前に手配して、彼はただ参加していた可能性が高い。それでも彼の番組を批判的に見る理由としては十分だ。どの都市か気になる
  • 復元された資料を見られて本当にうれしい :)
    画像も復旧されるといいな。彼が挙げていた レコードのリスト が気になる

  • “Great Dead Bars of New York” のリストにある SIBERIA が再オープンしたという知らせはうれしい
    今回は59th Street/Columbus Circle駅の構内で新たに始まった

  • ウェブサイトのデザインの話は避けたいけれど、白い背景に 薄いグレーのフォント はあまりにも読みにくい。特に年を取った目にはほとんど見えない

    • 自分の画面では薄いグレーではない。デスクトップとモバイルの両方で確認したけど、カラーコード #2B2B2B は十分に暗い。たぶん ディスプレイのガンマ設定 の問題だと思う。サイトは問題なく見える
    • 自分も最初はそう感じたけど、よく見たらダークモード拡張機能が色を変えていた。オフにしたら大丈夫だった
    • 突然明るい真っ白な画面が出ると目が痛いのはわかる
    • 背景のドット模様がうっすら見えるのも気になる。コントラスト は重要だ
  • 彼がいちばん気に入っていたバー Siberia が再オープンした
    Columbus Circle地下鉄駅の南端にあり、オーナーのTracyもそのままで、以前のような飾り気のない雰囲気だ

  • Tampopo が入っている映画リストなら、それだけで良いリストだと思う

  • こういう復元作業をしてくれて本当に感謝している
    自分は Bourdainファン として、たとえ人間的な欠点があったとしても、彼は時代精神の中でもっとも興味深い人物の一人だったと思う
    彼の Parts Unknown シリーズは、テレビで見た中でも最高の 人類学的コンテンツ の一つだった。今回の記事もとても興味深く読んだ