-
ISBNの可視化
- Anna's Archiveは、人類史上最大のオープンな書誌目録を提供している。
- 各ピクセルは2,500件のISBNを表し、ファイルが存在する場合はピクセルが緑色で表示される。
- 全書籍のうちバックアップされているのは16%のみで、さらに多くの作業が必要である。
-
背景
- Anna's Archiveは、人類の知識をバックアップするためにISBN番号を活用して書誌目録を作成している。
- ISBNは1970年代以降、ほとんどの国で出版された書籍に割り当てられている。
- 中央集権的な権限なしの分散システムとして運用されており、国、大手出版社、小規模出版社の順に番号が割り当てられる。
- Anna's Archiveは、ISBNdb、Worldcat、Google Booksなど多様なメタデータソースをスクレイピングし、最大規模のオープンな書籍メタデータを保有している。
- 希少で失われる危険のある書籍を特定し、保存することが重要である。
-
可視化
- さまざまなデータセットを個別に見ることができ、ドロップダウンやボタンを使って切り替えられる。
- データセットには、Anna's Archive、Google Books、Goodreads、Internet Archiveなどが含まれる。
- 可視化では、規則的な線やブロック、空白領域などのパターンを観察できる。
-
$10,000の懸賞金
- 可視化を改善するための懸賞金があり、2025年1月31日までにオープンソースのコードを提出する必要がある。
- 最優秀の提出物には$6,000、2位には$3,000、3位には$1,000が授与され、Monero(XMR)で支払われる。
- 最低基準を満たさなくても、一部の懸賞金が支払われる可能性がある。
- 提出物はHTMLを修正して可視化を改善する必要があり、デスクトップとモバイルの両方で適切に動作しなければならない。
- 追加点は、ユーザビリティと視覚的な魅力に応じて付与される。
-
コード
- 画像生成コードとサンプルは特定のディレクトリにある。
- 75MBの圧縮データ形式を使用してISBN情報を提供している。
- 懸賞金に参加するためにこの形式を使う必要はないが、始めるには最も便利な形式である。
- すべてのコードはオープンソースとして提供されなければならない。
1件のコメント
Hacker Newsのコメント
Hilbert Curveを使ってデータを可視化すると、ソート済みリストで近い点が視覚的にも近くなる。ISBNの最初の部分は国、2番目は出版社、3番目はタイトルで構成されており、チェックサムを除いて大きな数として並べると、大きな出版国が「島」のように見えるはず。この領域にラベルを付けるとよさそう
ISBNは階層的ではなく、ブロック単位で購入されるため、この可視化は興味深くも有用でもない。LoCやDewey Decimalを使った可視化のほうが有用そう
Anna's Archiveは世界の驚異のひとつであり、人類がほぼ滅亡してもAnna's Archiveが残っていれば、素早い再建への希望があるだろう
色覚異常のため赤と緑のピクセルを区別できず、ブラウザー拡張機能を使ってもより多くの色を見分けられなかった。グラフのほうがおかしいのだろうか
サーバーのIPがEUでブロックされていた。オランダのZiggo ISPで「このウェブサイトはブロックされています。欧州の制裁」というメッセージを受け取った
「このサーバーがannas-archive.orgであることを証明できません。セキュリティ証明書は*.hs.llnwd.netから発行されています。これは設定ミスか、攻撃者が接続を傍受している可能性があります」というメッセージを見ている人がいるか気になる
D3を使った可視化は楽しく、多くのものをマッピングして拡大できる
グラフで何が何に対応しているのか分かりにくい。Bookland(つまり978)を誰かが指摘してくれると、もっと理解しやすくなるはず
ISBNファイルをダウンロードして使うことが違法なのか気になる。その情報を持っていることの何が問題なのか分からない
各ピクセルは2,500件のISBNを表しており、ISBNファイルがあるとピクセルはより緑色になる。「より緑色」というのが何を意味するのか分からないし、黒いピクセルは未登録のISBNを表しているのか気になる