9 ポイント 投稿者 xguru 2021-09-17 | 3件のコメント | WhatsAppで共有
<p>- 機械学習を利用して、PDF、LaTeX、PubMed Central XML の内容を読み取り、HTMLに変換 <br /> - アクセシビリティ向上が目的 <br /> - AIベースの研究資料検索エンジンである Semantic Scholar の実験的プロトタイプ <br /> - 現在は抽出された画像/コンテンツのみをキャッシュしており、同じ文書をアップロードした人にだけ高速にサービスする用途で使用されている。アップロードしたファイルは保存しない <br /> - 制限事項<br /> → 表(Table)は画像として抽出される <br /> → 数学(Math)コンテンツは精度が低いか、ほとんど抽出されない <br /> → LaTeX/PubMed の処理は PDF より一部機能が不足している可能性がある <br /> - 今後、Semantic Scholar にアクセシビリティ機能を追加する計画がある </p>

3件のコメント

 
v08zbv8fvlkjasdflkj 2021-09-23
<p>PDFを別のフォーマット(epubが良いです)に変換するときに問題になるのが、上に挙げられている表や数式ですが、数式がうまく変換できないなら何が強みなのかよく分からないですね。 <br /> --<br /> デモを見る限り、使えそうですね。</p>
 
indigo6 2021-09-18
<p>便利そうではありますが、自分の論文がHTML形式に変換されることを望まない人もいそうですね。権利者が変換についてopt-outできるといいのですが……<br /> <br /> 昔(本当に昔ですね……)LaTeXで論文を書きながら、とてつもない恍惚感を覚えたことがあるんです。内容はひどいものでしたが、レンダリングがあまりにも整然として美しかったので、そのとき感じた気持ちは今でも覚えています。クヌース先生は神だ……とTeXを見ながら思ったものですが……ともかく、自分が書いた著作物は内容も大事ですが、その論文の形式や表現のディテールも重要だと考える人はいるのではないか、とふと思いました。</p>
 
xguru 2021-09-17
<p>ギャラリーを見て回った感じでは、品質はかなり実用的ですね。<br /> https://papertohtml.org/gallery<br /> <br /> Google Scholar にこういうものが適用されたら便利かな、とは思いますね。</p>