2 ポイント 投稿者 GN⁺ 2025-01-11 | 1件のコメント | WhatsAppで共有
  • ISBNの可視化

    • Anna's Archiveは、人類史上最大のオープンな書誌目録を提供している。
    • 各ピクセルは2,500件のISBNを表し、ファイルが存在する場合はピクセルが緑色で表示される。
    • 全書籍のうちバックアップされているのは16%のみで、さらに多くの作業が必要である。
  • 背景

    • Anna's Archiveは、人類の知識をバックアップするためにISBN番号を活用して書誌目録を作成している。
    • ISBNは1970年代以降、ほとんどの国で出版された書籍に割り当てられている。
    • 中央集権的な権限なしの分散システムとして運用されており、国、大手出版社、小規模出版社の順に番号が割り当てられる。
    • Anna's Archiveは、ISBNdb、Worldcat、Google Booksなど多様なメタデータソースをスクレイピングし、最大規模のオープンな書籍メタデータを保有している。
    • 希少で失われる危険のある書籍を特定し、保存することが重要である。
  • 可視化

    • さまざまなデータセットを個別に見ることができ、ドロップダウンやボタンを使って切り替えられる。
    • データセットには、Anna's Archive、Google Books、Goodreads、Internet Archiveなどが含まれる。
    • 可視化では、規則的な線やブロック、空白領域などのパターンを観察できる。
  • $10,000の懸賞金

    • 可視化を改善するための懸賞金があり、2025年1月31日までにオープンソースのコードを提出する必要がある。
    • 最優秀の提出物には$6,000、2位には$3,000、3位には$1,000が授与され、Monero(XMR)で支払われる。
    • 最低基準を満たさなくても、一部の懸賞金が支払われる可能性がある。
    • 提出物はHTMLを修正して可視化を改善する必要があり、デスクトップとモバイルの両方で適切に動作しなければならない。
    • 追加点は、ユーザビリティと視覚的な魅力に応じて付与される。
  • コード

    • 画像生成コードとサンプルは特定のディレクトリにある。
    • 75MBの圧縮データ形式を使用してISBN情報を提供している。
    • 懸賞金に参加するためにこの形式を使う必要はないが、始めるには最も便利な形式である。
    • すべてのコードはオープンソースとして提供されなければならない。

1件のコメント

 
GN⁺ 2025-01-11
Hacker Newsのコメント
  • Hilbert Curveを使ってデータを可視化すると、ソート済みリストで近い点が視覚的にも近くなる。ISBNの最初の部分は国、2番目は出版社、3番目はタイトルで構成されており、チェックサムを除いて大きな数として並べると、大きな出版国が「島」のように見えるはず。この領域にラベルを付けるとよさそう

  • ISBNは階層的ではなく、ブロック単位で購入されるため、この可視化は興味深くも有用でもない。LoCやDewey Decimalを使った可視化のほうが有用そう

  • Anna's Archiveは世界の驚異のひとつであり、人類がほぼ滅亡してもAnna's Archiveが残っていれば、素早い再建への希望があるだろう

  • 色覚異常のため赤と緑のピクセルを区別できず、ブラウザー拡張機能を使ってもより多くの色を見分けられなかった。グラフのほうがおかしいのだろうか

  • サーバーのIPがEUでブロックされていた。オランダのZiggo ISPで「このウェブサイトはブロックされています。欧州の制裁」というメッセージを受け取った

  • 「このサーバーがannas-archive.orgであることを証明できません。セキュリティ証明書は*.hs.llnwd.netから発行されています。これは設定ミスか、攻撃者が接続を傍受している可能性があります」というメッセージを見ている人がいるか気になる

  • D3を使った可視化は楽しく、多くのものをマッピングして拡大できる

  • グラフで何が何に対応しているのか分かりにくい。Bookland(つまり978)を誰かが指摘してくれると、もっと理解しやすくなるはず

  • ISBNファイルをダウンロードして使うことが違法なのか気になる。その情報を持っていることの何が問題なのか分からない

  • 各ピクセルは2,500件のISBNを表しており、ISBNファイルがあるとピクセルはより緑色になる。「より緑色」というのが何を意味するのか分からないし、黒いピクセルは未登録のISBNを表しているのか気になる