Paper to HTML - 論文を読みやすいHTMLに変換

xguru · 2021-09-17T09:18:57+09:00

機械学習を利用して、PDF、LaTeX、PubMed Central XML の内容を読み取り、HTMLに変換アクセシビリティ向上が目的 AIベースの研究資料検索エンジンである Semantic Scholar の実験的プロトタイプ現在は抽出された画像/コンテンツのみをキャッシュしており、同じ文書をアップロードした人にだけ高速にサービスする用途で使用されている。アップロードしたファイルは保存しない制限事項 → 表(Table)は画像として抽出される → 数学(Math)コンテンツは精度が低いか、ほとんど抽出されない → LaTeX/PubMed の処理は PDF より一部機能が不足している可能性がある今後、Semantic Scholar にアクセシビリティ機能を追加する計画がある

(papertohtml.org)

9 ポイント投稿者 xguru 2021-09-17 | 3件のコメント | WhatsAppで共有

機械学習を利用して、PDF、LaTeX、PubMed Central XML の内容を読み取り、HTMLに変換
アクセシビリティ向上が目的
AIベースの研究資料検索エンジンである Semantic Scholar の実験的プロトタイプ
現在は抽出された画像/コンテンツのみをキャッシュしており、同じ文書をアップロードした人にだけ高速にサービスする用途で使用されている。アップロードしたファイルは保存しない
制限事項

→ 表(Table)は画像として抽出される

→ 数学(Math)コンテンツは精度が低いか、ほとんど抽出されない

→ LaTeX/PubMed の処理は PDF より一部機能が不足している可能性がある

今後、Semantic Scholar にアクセシビリティ機能を追加する計画がある

3件のコメント

v08zbv8fvlkjasdflkj 2021-09-23

PDFを別のフォーマット（epubが良いです）に変換するときに問題になるのが、上に挙げられている表や数式ですが、数式がうまく変換できないなら何が強みなのかよく分からないですね。

デモを見る限り、使えそうですね。

indigo6 2021-09-18

便利そうではありますが、自分の論文がHTML形式に変換されることを望まない人もいそうですね。権利者が変換についてopt-outできるといいのですが……

昔（本当に昔ですね……）LaTeXで論文を書きながら、とてつもない恍惚感を覚えたことがあるんです。内容はひどいものでしたが、レンダリングがあまりにも整然として美しかったので、そのとき感じた気持ちは今でも覚えています。クヌース先生は神だ……とTeXを見ながら思ったものですが……ともかく、自分が書いた著作物は内容も大事ですが、その論文の形式や表現のディテールも重要だと考える人はいるのではないか、とふと思いました。

xguru 2021-09-17

ギャラリーを見て回った感じでは、品質はかなり実用的ですね。

https://papertohtml.org/gallery

Google Scholar にこういうものが適用されたら便利かな、とは思いますね。

Paper to HTML - 論文を読みやすいHTMLに変換

関連記事

3件のコメント