1 ポイント 投稿者 GN⁺ 7 일 전 | 1件のコメント | WhatsAppで共有
  • 1910–1911 Encyclopædia Britannica 第11版のデジタル版で、全文検索、相互参照、注釈機能を提供
  • 上部ナビゲーション項目として ArticlesContributorsTopicsAncillary の区分を提供
  • 表題に Encyclopædia BritannicaEleventh Edition · 1910–1911 を明記
  • 紹介文に Fully searchable, cross-referenced, and annotated と直接表記
  • 追加の本文説明や例示、詳細機能の紹介は提示されていない

概要

  • 1910–1911 Encyclopædia Britannica 第11版のデジタル版で、全文検索、相互参照、注釈機能を提供
  • 上部ナビゲーション項目として ArticlesContributorsTopicsAncillary の区分を提供
  • 表題に Encyclopædia BritannicaEleventh Edition · 1910–1911 を明記
  • 紹介文として Fully searchable, cross-referenced, and annotated と直接表記
  • 追加の本文説明、例示、詳細機能の説明は提供されていない

提供情報

  • デジタル版の中核的な特性として、検索可能性相互参照注釈追加を直接確認できる
  • 記事本文に相当する拡張説明や、各項目ごとの詳細紹介は含まれていない
  • 著者情報、発行情報、参考情報に相当するメタデータは要約対象から除外される

1件のコメント

 
GN⁺ 7 일 전
Hacker Newsのコメント
  • 1911年版 Encyclopædia Britannica を整理され、構造化された探索型サイトとして作り直した。 https://britannica11.org/ で見られる。
    約3万7千本の記事を原本の巻構成に基づいて復元し、セクション単位の目次クリック、相互参照リンク、寄稿者検索、原本の巻とページ表記、各ページの原本スキャンへのリンク、付録資料、主題索引、メタデータを含む全文検索まで入れた。
    中核作業は、見出し構造、複数ページにまたがる記事、表、数式、多言語、脚注、図版といった復元パイプラインの処理だった。
    目標は原本の雰囲気を保ちながら、実際に使える形にすることだった。
    特に検索品質、セクション移動と相互参照、構造が不自然に見える箇所についてフィードバックが欲しい。
    パイプラインやデータモデルについての質問も歓迎する。

    • 付録資料と相性がよさそうなものとして、The Reader's Guide to the Encyclopaedia Britannica を追加してみるとよいと思う。パブリックドメインのテキストは https://www.gutenberg.org/ebooks/74039、スキャンは https://archive.org/details/readersguidetoen00londuoft で見られる。
    • 本当に素晴らしい出来だと思う。機能提案として、パイプラインでEPUB生成まで対応するとよさそう。サイトが落ちてもオフラインで検索・閲覧できるし、EPUB の圧縮のおかげで百科事典全体のファイルサイズも思ったほど大きくならないかもしれない。
    • 目次のところにエスケープの問題があるように見える。たとえば United States の記事で Roosevelt's の表記が崩れて見える。 https://britannica11.org/article/27-0635-united-states-the/united_states__the
    • いくつかの話題を実際にかなり長く見て回ってしまうほど良かった。
      ただ、記事の中に入ったあと別の話題へ移動しようとすると、上部の検索欄 "Search titles and full text..." が機能しなかった。
      また、最初に来たときはどこから始めればいいのか少し戸惑い、"Articles" や "Topics" を押して探索が始まるということをすぐには理解できなかった。メイン画像そのものが入口の役目を果たすのだろうと期待していた気がする。
    • ある文書の中で言及された話題を別文書へつなぐWikipedia 風の内部リンクがあると、さらに良くなると思う。
  • このプロジェクトは本当に素晴らしいと思う。自分ももっと小さな範囲で似たようなことをやってみようかと長く考えてきた。
    1911 Britannica が特に有名な理由はいくつかあるが、最も広く知られている点は第一次世界大戦前の最後の百科事典だということだと思う。
    だから第1次・第2次産業革命と Progressive Era の蒸気のような楽観主義が残っていて、まだ「すべての戦争を終わらせるための戦争」の衝撃に染まっていない空気がある。
    実際に https://britannica11.org で無作為に Portuguese East Africa を検索してみたらすぐ見つかってきれいに表示され、結果は https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa だった。
    丁寧な要望として、テキストと原本ページ画像を並べて見せる並列表示オプションがあると本当にうれしい。
    そうすれば OCR の忠実度を自分で確認しながら美しい印刷状態も同時に見られるし、ページごとに新しいウィンドウを開く必要もなくなる。
    個人的には、このサイトを文書への入口として使い、読むときは画像中心で、確認やコピーのときにテキストへ切り替えるような使い方をしたい。
    今でも原本画像があることは分かったが、サイドリンクを見つけるまで3回も訪れたほど目立っていなかった。選択式のサムネイルのような中間案もよさそうだ。
    何より動作も速い。

  • "Adolescence" の記事などを見ると、現代ではかなり衝撃的に読める信念に出会えると思う。
    たとえば、思春期ごろの少女には運動や知的教育の負担を減らし、休養を強制すべきだというような記述が入っている。

    • その通りだと思う。自分が1911年版を面白く感じる理由の一つもそこにある。著者たちは自分の意見をより直接的に表現できていて、その意見が当時の通念を自然に反映しているからだ。
    • そういう内容は、文章として明文化されたときにだけ衝撃的に見える面もあると思う。
      実際には多くの人が似たような生き方を実践しているし、女性運動も一時はその逆を強く推し進めたあと、後には労働市場に入らない選択の自由も強調する方向へ調整された面があると思う。
      いわゆる "soft life" への嗜好は時代を問わず、男性にも誰かに経済的に支えられる文化的選択肢が広く開かれていれば、知的負担が少なく段階的な役割を選ぶ割合はかなり高くなるだろうと思う。
      そうなれば、他分野における代表性の不均衡も、女性を無理に投入するのではなく、男性の自発的離脱によって一部は解消されうるという見方だ。
    • 今ではパブリックドメインのテキストなら、ほとんど何でも Kimi や GLM のような最新級の LLMに入れて、かなりうまく現代語要約を得られると思う。
      歴史文献特有のレンガのように重い段落を、LLM が過剰気味のフォーマットで整理してくれる点も意外と便利だ。
      そして "このテキストは今日どう受け取られるだろうか?" のようなプロンプトをもう一度与えると、現代の基準では不適切だったり受け入れにくかったりする部分もかなり詳しく指摘してくれる。
  • 内部的に情報がどんな構造なのか気になっていた。デジタル・ヒューマニティーズの分野では、こうした作業にXML-TEIのような意味論的マークアップがよく使われると最近知った。
    自分は Latin-English Lewis & Short 辞書を XML-TEI でエンコードした資料を見ながら BaseX と XQuery を学び、"コーパス全体で一度しか現れない単語を使った古典著者は誰か" や "最も長い hapax 単語は何か" のような問いを投げて遊ぶ面白さを感じた。
    Tufts University がこうした資料を公開してくれているのも本当に素晴らしかった。
    1911 Britannica も BaseX に入れて XQuery であれこれ掘り下げられたら本当に面白そうだと思う。

    • 内部構造は XML-TEI ではなく、リレーショナルデータとパイプラインが基盤になっている。記事境界、セクション、寄稿者、相互参照、原本ページの出典情報を構造化レコードとして復元してある。
      テキスト自体はパブリックドメインだが、まだ大規模な構造化エクスポートは公開していない。
      ただ、このスレッドでもデータセットへのアクセス要望が多く出ているので真剣に検討中で、公開するならプレーンテキストのダンプではなく、構造を保った形で出したい。
  • 現代のテキストと比べると、文体と構造がかなり違うのが興味深かった。
    たとえば Copenhagen の項目 https://britannica11.org/article/07-0111-copenhagen/copenhagen を見ると、地理や主な見どころは正確に説明しつつも、著者たちが面白いとか奇妙だと感じる対象については、感情的な形容詞や個人的な意見をためらわずに入れている。
    しかも下の Battle of Copenhagen のくだりでは、地理の説明から突然海戦の場面ごとの描写へと移っていき、ジャンルそのものが切り替わるように感じた。

    • そう思う。それがこの版で自分が最も気に入っている点の一つだ。文書ごとにもっと個人的で均質化されていないトーンがある。
      地理、歴史、ときにはかなり強い意見まで一か所に混ざっていて、その方がむしろ読みやすいと感じる。
      この点に関する話は紹介文 https://britannica11.org/about.html にもまとめてある。
    • Victor Hugo の項目を見た瞬間、誰が読んでも著者がファンだと分かる一文を見つけた。
      Les Misérables を「これまでに創作または構想された中で最も偉大な叙事的かつ劇的な小説」と持ち上げている箇所がまさにそれだった。
  • 2021年版 Encarta や Britannica のような、比較的最近の百科事典を入手できないか長く考えてきた。
    LLM 以前、コロナ以後という微妙な境界で、AI 汚染の少ない最後の情報源のようなものを期待してしまう。
    子どもの頃にいちばん大事にしていた物の一つが CD-ROM 百科事典で、インターネットがまだ一般的でなかった時代、雨の午後に好きな項目を開いて読んで学ぶ体験がとても好きだった。

  • 1911 Encyclopædia Britannica が好きな人なら https://OldEncyc.com も面白いと思う。
    ここでは1728年から1926年までの22版の古い百科事典を、巻や文字範囲ごとに掘っていける。OP のサイトのように検索中心ではないが、資料の幅は広い。

    • 初めて見るサイトだったが、本当に良いコレクションだと思う。複数の版を幅広くカバーしている点が特に気に入った。
  • ごく些細なバグ報告だが、今選ばれているフォントが ℔ 文字をサポートしていないので、https://britannica11.org/article/22-0688-s2/putting_the_shot のような文書が変に見える。
    今ではもっとなじみのある表記である lb に正規化するのも検討に値する。

    • 良い指摘だと思う。それはグリフカバレッジの問題なので、欠けている文字向けの代替フォントを入れるか、そのケースを正規化するつもりだ。
      小さなことに見えても、このプロジェクトはこういう種類の項目で満ちている。
  • 世間は狭いものだと思う。自分は今、EB 第9版のスキャンを整理して MediaWiki サイトに載せている最中で、挿絵や図版まで含めているので、まだ3分の1くらいしか進んでいない。
    いろいろな OCR ツールを試したが、今のところはpaddleOCRがいちばん印象的だった。テキスト列の分離、挿絵のラベリング、欄外テキストの認識までかなりうまくできた。
    もちろん完璧ではないので一部の表は手で直しており、原本スキャンページと電子テキストを行き来して見られるよう、ソースページも一緒に載せる予定だ。

    • ちなみに1875年版の第9版は、著名な寄稿者が多かったことからscholar's editionとして知られており、19世紀後半の魅力的なスナップショットだと思う。
      こういうやり方でハイパーリンクや索引を付けてオンライン化すると面白そうな資料として、地理アトラス、医学アトラス、Baedeker 旅行ガイドなども思い浮かぶ。
    • 楽しみだ。第9版はそれ自体ですでに素晴らしく、第11版にもその内容が多く引き継がれている。
      Alfred Newton の膨大な鳥類項目や、Macaulay の古典的なエッセイがいくつかすぐに思い浮かぶ。
  • いくつかの箇所は、今読むとかなり面白くて奇妙な味わいがあると思う。たとえば stars の項目 https://britannica11.org/article/25-0806-star/star#section-10 では、宇宙空間に星が無限に一様分布していて光の吸収がないなら、空の背景はまぶしいほど明るくなるはずだ、という趣旨で述べている。

    • "computer" を検索してみたところ、現代的な意味のコンピューターはなく、American Ephemeris and Nautical Almanac のcomputer という職名で働いた Chauncey Wright しか出てこなかった。
      結果は https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1 で、本当に時代の違いを感じる。
    • Sun の項目もかなり面白かった。核融合は知られていなかったが、太陽がどうやってあれほど大きなエネルギーを出すのかについては、化学的燃焼や重力収縮のような理論はほぼ退けていた。
      その代わり、元素原子構造の何らかの再配列が最ももっともらしいとし、星雲が太陽へ凝縮しながら物質が既知の元素へ発達する過程でエネルギーを放出すると説明していた。
      当時の知識水準を考えると、驚くほど近い推定だったと思う。
    • そのくだりは Olbers' paradox と結びつけて読むとよいと思う。