論文向けアクセシブルな形式としてのHTML(2023)
(info.arxiv.org)- arXivは研究のアクセシビリティ向上のため、PDFと並行してHTML形式の論文を提供し始めた
- 200万件を超える論文の一部は、自動変換の限界によりHTML版が提供されないが、変換品質は継続的に改善される予定
- HTMLはスクリーンリーダー、音声変換、モバイルデバイスなどの補助技術との互換性が高く、アクセシビリティの面で有利
- コミュニティはエラー報告とLaTeX変換の改善を通じて、このプロジェクトに直接参加できる
- この試みは、科学研究の包摂性とアクセシビリティ拡大を目指すarXivの長期的な方針を示している
HTML形式の論文提供概要
- arXivは既存のPDFに加えてHTML論文形式を導入し、研究のアクセシビリティ向上を進めている
- コミュニティのフィードバックでは、HTML提供は短期間で最も大きな影響を与える施策として評価されている
- HTML版は論文アブストラクトページのPDFダウンロードリンクの下に表示される
- 著者は投稿プロセスで自分の論文のHTMLプレビューを確認できる
- arXivは200万件以上の論文について段階的にHTMLを追加しており、一部の論文は変換失敗のためHTMLが提供されない
- HTMLベータローンチは開始段階で、LaTeX変換品質の改善とフィードバック収集は継続中
“実験的”HTMLと名付けた理由
- arXivへの投稿の**90%以上がTeX(主にLaTeX)**形式であるため、これをHTMLに正確に変換することには技術的な難題がある
- LaTeXは拡張性が高く、著者ごとに使い方が多様
- HTMLはスクリーンリーダー、音声変換、画面拡大ツール、モバイルデバイスとの互換性が優れている
- 変換では自動化と速度を維持する必要があるため、完全なレンダリングは難しい
- “実験的”HTMLとして公開した理由は2点ある
- アクセシブルな論文が今すぐ必要 — アクセシビリティを必要とする研究者が公開を遅らせないよう要望した
- コミュニティの協力が必要 — 変換エラーを報告してもらい、特定のLaTeXパッケージ問題を追跡するため
HTML論文で発生する可能性のあるエラー
- HTML論文はまだ改善途中の成果物であり、変換エラーやレンダリングの問題が発生する可能性がある
- arXivはエラーの原因と、著者がそれを最小化できる方法を共有している
- 詳細は別ページで確認できる
コミュニティ参加方法
-
1) HTML論文の閲覧と問題報告
- 興味ある論文のアブストラクトページでHTMLリンクをクリックして閲覧する
- 問題報告はOpen Issueボタン、テキスト選択後の報告、またはCtrl+?ショートカットで可能
- スクリーンリーダー利用者はAlt+yで段落ごとのアクセシビリティレポートボタンに切り替えることができる
- HTMLがPDFと同じように見えないことだけを理由に問題を報告しないでほしい
- HTMLは見た目より機能を優先しており、改行と余白の違いは意図した設計である
- HTMLは補助技術の互換性とデバイス適応性でPDFより優れている
-
2) LaTeX変換改善の支援
- 著者はarXivのLaTeXマークアップベストプラクティスガイドに従って変換品質を向上させることができる
- 開発者はLaTeXMLプロジェクトのIssue一覧を通じて変換改善に貢献できる
- 学会や出版社は、サポートされていないパッケージを使用する.clsファイルを見直すことで、アクセシビリティ向上に協力できる
協力者への謝意
- プロジェクト全体で、障害を持つ研究者たちの助言と専門性が大きな役割を果たした
- HTML論文の実装は、LaTeX ProjectとNISTのLaTeXMLチームの協力により実現した
- 両チームの知識、技術、アクセシビリティへの献身に深い謝意を表す
1件のコメント
Hacker Newsのコメント
arXiv HTML Papers の開発者として、簡単なアップデートを共有する
現在、論文レンダリングには 品質とカバレッジの問題 が多いことを把握している。こうした問題を見つけたら、GitHub の issue ページ に報告してほしい
開発時間の不足が最大のボトルネックであり、LaTeX 側の改善の要は引き続き LaTeXML である
私は arXiv の論文を PDF よりも HTML 形式 で読む方をはるかに好む
ブラウザ拡張機能をそのまま活用して、翻訳、ノート作成、LLM への送信など、さまざまな作業を簡単に行える
現在 arXiv には、標準 HTML サービス(https://arxiv.org/html/xxxx.xxxxx) と代替サービス(https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx) がある
しかし標準サービスはカバレッジの問題が深刻で、たとえば この論文 は動作しない。代替サービスに切り替えると解決することもあるが、両方のサービスが失敗する場合もある (例)
Unicode コンソーシアムが 絵文字 より数学記号のサポートにもっと注力していたなら、(LA)TeX/PDF 中心の構造から脱却できたかもしれない
OpenType と TrueType はすでに複雑なレンダリングをサポートしており、フォントフォールバックも可能である
問題は技術的制約ではなく、「記号の階層に含まれない」という 政策的判断 だった
興味深いことに、Gemini 3 Pro はどんな設定をしても LaTeX 数式を強制的に出力する。実験結果を ここ で共有した
Unicode は本質的に文字体系であって、レイアウトシステムではないためである
HTML ベースの論文も十分可能だが、研究者たちは依然として伝統的な 2段組レイアウトとセリフ体フォント に固執している
モバイルでのアクセシビリティや可読性よりも、「本物の論文らしく見えなければならない」という文化が問題である
1 段階目で質問を投げ、2 段階目で小さなモデルに LaTeX 表記を Unicode 数式 に変換させる方式である
HTML 論文はすでに数年前から提供されていた
実際、2023 年に導入されたことは 公式ブログ で確認できる
arXiv 論文の 90% が LaTeX ベース であり、変換が非常に難しいためである。
高速で自動化された変換を維持しながらアクセシビリティを高めることが重要課題である
複雑な TeX 構造を頻繁に使う著者として、HTML 変換の導入以後 作業量が大幅に増えた
変換速度も遅く、ローカルでシミュレーションする方法もない
それでもアクセシビリティ向上のための良い試みだと思う
論文が epub 形式 でも提供されればよいと思う。技術的な難しさがあるのか、単に需要が足りないのかは分からない
しかし、PDF ほど読みやすく、あるいは美しく表示されるリーダーを見たことがない。注釈機能もプラットフォーム間で互換性が不足している
研究者がその品質保証まで担うのは非効率なので、必要なら HTML→epub 変換器を自分で使えばよい
研究アクセシビリティの問題は新しいものではないが、今こそ 最も緊急な時期 である
arXiv が PDF とともに HTML 論文を提供することが、最も速く大きな変化を生み出せる
論文で 動画の埋め込み が制限されていることが最大の不満である
単に補助資料として添付するか、外部リンクとして提供することしかできない。
論文本文に GIF や動画 を直接埋め込めるようになってほしい
「90% が LaTeX ベースなので変換が難しい」という説明を見て、本当に 挑戦的な作業 だと思った。良い試みである
1998 年ごろ学校新聞の編集を担当していたとき、Corel Draw の代わりに HTML へ切り替えようと提案したことがあった
結局当時も、今のコメント欄と同じような理由で HTML 採用を断念 した