Britannica11.org - 1911年版Encyclopædia Britannicaの構造化デジタル版
(britannica11.org)- 1910–1911 Encyclopædia Britannica 第11版のデジタル版で、全文検索、相互参照、注釈機能を提供
- 上部ナビゲーション項目として Articles、Contributors、Topics、Ancillary の区分を提供
- 表題に Encyclopædia Britannica と Eleventh Edition · 1910–1911 を明記
- 紹介文に Fully searchable, cross-referenced, and annotated と直接表記
- 追加の本文説明や例示、詳細機能の紹介は提示されていない
概要
- 1910–1911 Encyclopædia Britannica 第11版のデジタル版で、全文検索、相互参照、注釈機能を提供
- 上部ナビゲーション項目として Articles、Contributors、Topics、Ancillary の区分を提供
- 表題に Encyclopædia Britannica、Eleventh Edition · 1910–1911 を明記
- 紹介文として Fully searchable, cross-referenced, and annotated と直接表記
- 追加の本文説明、例示、詳細機能の説明は提供されていない
提供情報
- デジタル版の中核的な特性として、検索可能性、相互参照、注釈追加を直接確認できる
- 記事本文に相当する拡張説明や、各項目ごとの詳細紹介は含まれていない
- 著者情報、発行情報、参考情報に相当するメタデータは要約対象から除外される
1件のコメント
Hacker Newsのコメント
1911年版 Encyclopædia Britannica を整理され、構造化された探索型サイトとして作り直した。 https://britannica11.org/ で見られる。
約3万7千本の記事を原本の巻構成に基づいて復元し、セクション単位の目次クリック、相互参照リンク、寄稿者検索、原本の巻とページ表記、各ページの原本スキャンへのリンク、付録資料、主題索引、メタデータを含む全文検索まで入れた。
中核作業は、見出し構造、複数ページにまたがる記事、表、数式、多言語、脚注、図版といった復元パイプラインの処理だった。
目標は原本の雰囲気を保ちながら、実際に使える形にすることだった。
特に検索品質、セクション移動と相互参照、構造が不自然に見える箇所についてフィードバックが欲しい。
パイプラインやデータモデルについての質問も歓迎する。
ただ、記事の中に入ったあと別の話題へ移動しようとすると、上部の検索欄 "Search titles and full text..." が機能しなかった。
また、最初に来たときはどこから始めればいいのか少し戸惑い、"Articles" や "Topics" を押して探索が始まるということをすぐには理解できなかった。メイン画像そのものが入口の役目を果たすのだろうと期待していた気がする。
このプロジェクトは本当に素晴らしいと思う。自分ももっと小さな範囲で似たようなことをやってみようかと長く考えてきた。
1911 Britannica が特に有名な理由はいくつかあるが、最も広く知られている点は第一次世界大戦前の最後の百科事典だということだと思う。
だから第1次・第2次産業革命と Progressive Era の蒸気のような楽観主義が残っていて、まだ「すべての戦争を終わらせるための戦争」の衝撃に染まっていない空気がある。
実際に https://britannica11.org で無作為に Portuguese East Africa を検索してみたらすぐ見つかってきれいに表示され、結果は https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa だった。
丁寧な要望として、テキストと原本ページ画像を並べて見せる並列表示オプションがあると本当にうれしい。
そうすれば OCR の忠実度を自分で確認しながら美しい印刷状態も同時に見られるし、ページごとに新しいウィンドウを開く必要もなくなる。
個人的には、このサイトを文書への入口として使い、読むときは画像中心で、確認やコピーのときにテキストへ切り替えるような使い方をしたい。
今でも原本画像があることは分かったが、サイドリンクを見つけるまで3回も訪れたほど目立っていなかった。選択式のサムネイルのような中間案もよさそうだ。
何より動作も速い。
それに OP 版では忠実度の問題もいくつか見つかった。 https://britannica11.org/article/18-0684-s2/molecule では "the molecules of other kinds" の下にある数式の一部が欠けていて、[1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds と [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688 を比較すると確認できる。
また脚注 1 は OP 版だと "as they have always done" に付いているが、実際には p. 654 の "Atom" に付くべきだ。 [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done, [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1 を見比べると分かる。
挙げてくれた理由から、自分もテキストとページの並列表示はいいと思っていたが、まだ作っていなかった。
スキャンへのリンクがすぐ目に入らなかったというフィードバックも有益で、もっと分かりやすく見せるべきだと感じた。
ちなみに左余白の vol:page リンクを押すと、読んでいるそのページのスキャンに直接飛べる。
"Adolescence" の記事などを見ると、現代ではかなり衝撃的に読める信念に出会えると思う。
たとえば、思春期ごろの少女には運動や知的教育の負担を減らし、休養を強制すべきだというような記述が入っている。
実際には多くの人が似たような生き方を実践しているし、女性運動も一時はその逆を強く推し進めたあと、後には労働市場に入らない選択の自由も強調する方向へ調整された面があると思う。
いわゆる "soft life" への嗜好は時代を問わず、男性にも誰かに経済的に支えられる文化的選択肢が広く開かれていれば、知的負担が少なく段階的な役割を選ぶ割合はかなり高くなるだろうと思う。
そうなれば、他分野における代表性の不均衡も、女性を無理に投入するのではなく、男性の自発的離脱によって一部は解消されうるという見方だ。
歴史文献特有のレンガのように重い段落を、LLM が過剰気味のフォーマットで整理してくれる点も意外と便利だ。
そして "このテキストは今日どう受け取られるだろうか?" のようなプロンプトをもう一度与えると、現代の基準では不適切だったり受け入れにくかったりする部分もかなり詳しく指摘してくれる。
内部的に情報がどんな構造なのか気になっていた。デジタル・ヒューマニティーズの分野では、こうした作業にXML-TEIのような意味論的マークアップがよく使われると最近知った。
自分は Latin-English Lewis & Short 辞書を XML-TEI でエンコードした資料を見ながら BaseX と XQuery を学び、"コーパス全体で一度しか現れない単語を使った古典著者は誰か" や "最も長い hapax 単語は何か" のような問いを投げて遊ぶ面白さを感じた。
Tufts University がこうした資料を公開してくれているのも本当に素晴らしかった。
1911 Britannica も BaseX に入れて XQuery であれこれ掘り下げられたら本当に面白そうだと思う。
テキスト自体はパブリックドメインだが、まだ大規模な構造化エクスポートは公開していない。
ただ、このスレッドでもデータセットへのアクセス要望が多く出ているので真剣に検討中で、公開するならプレーンテキストのダンプではなく、構造を保った形で出したい。
現代のテキストと比べると、文体と構造がかなり違うのが興味深かった。
たとえば Copenhagen の項目 https://britannica11.org/article/07-0111-copenhagen/copenhagen を見ると、地理や主な見どころは正確に説明しつつも、著者たちが面白いとか奇妙だと感じる対象については、感情的な形容詞や個人的な意見をためらわずに入れている。
しかも下の Battle of Copenhagen のくだりでは、地理の説明から突然海戦の場面ごとの描写へと移っていき、ジャンルそのものが切り替わるように感じた。
地理、歴史、ときにはかなり強い意見まで一か所に混ざっていて、その方がむしろ読みやすいと感じる。
この点に関する話は紹介文 https://britannica11.org/about.html にもまとめてある。
Les Misérables を「これまでに創作または構想された中で最も偉大な叙事的かつ劇的な小説」と持ち上げている箇所がまさにそれだった。
2021年版 Encarta や Britannica のような、比較的最近の百科事典を入手できないか長く考えてきた。
LLM 以前、コロナ以後という微妙な境界で、AI 汚染の少ない最後の情報源のようなものを期待してしまう。
子どもの頃にいちばん大事にしていた物の一つが CD-ROM 百科事典で、インターネットがまだ一般的でなかった時代、雨の午後に好きな項目を開いて読んで学ぶ体験がとても好きだった。
このプロジェクトの動機の一つも、1911年の原文と構造をもとに、そうした探索の感覚をもう一度よみがえらせようとすることだった。
1911 Encyclopædia Britannica が好きな人なら https://OldEncyc.com も面白いと思う。
ここでは1728年から1926年までの22版の古い百科事典を、巻や文字範囲ごとに掘っていける。OP のサイトのように検索中心ではないが、資料の幅は広い。
ごく些細なバグ報告だが、今選ばれているフォントが ℔ 文字をサポートしていないので、https://britannica11.org/article/22-0688-s2/putting_the_shot のような文書が変に見える。
今ではもっとなじみのある表記である lb に正規化するのも検討に値する。
小さなことに見えても、このプロジェクトはこういう種類の項目で満ちている。
世間は狭いものだと思う。自分は今、EB 第9版のスキャンを整理して MediaWiki サイトに載せている最中で、挿絵や図版まで含めているので、まだ3分の1くらいしか進んでいない。
いろいろな OCR ツールを試したが、今のところはpaddleOCRがいちばん印象的だった。テキスト列の分離、挿絵のラベリング、欄外テキストの認識までかなりうまくできた。
もちろん完璧ではないので一部の表は手で直しており、原本スキャンページと電子テキストを行き来して見られるよう、ソースページも一緒に載せる予定だ。
こういうやり方でハイパーリンクや索引を付けてオンライン化すると面白そうな資料として、地理アトラス、医学アトラス、Baedeker 旅行ガイドなども思い浮かぶ。
Alfred Newton の膨大な鳥類項目や、Macaulay の古典的なエッセイがいくつかすぐに思い浮かぶ。
いくつかの箇所は、今読むとかなり面白くて奇妙な味わいがあると思う。たとえば stars の項目 https://britannica11.org/article/25-0806-star/star#section-10 では、宇宙空間に星が無限に一様分布していて光の吸収がないなら、空の背景はまぶしいほど明るくなるはずだ、という趣旨で述べている。
結果は https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1 で、本当に時代の違いを感じる。
その代わり、元素原子構造の何らかの再配列が最ももっともらしいとし、星雲が太陽へ凝縮しながら物質が既知の元素へ発達する過程でエネルギーを放出すると説明していた。
当時の知識水準を考えると、驚くほど近い推定だったと思う。