14 ポイント 投稿者 GN⁺ 2023-12-22 | 1件のコメント | WhatsAppで共有

科学研究への公平なアクセス

  • arXivは、障害のある人を含むすべての利用者が科学研究に公平にアクセスできるよう取り組んでいる。
  • 2023年12月18日から、TeX/LaTeXで投稿されたすべての論文についてHTML形式の版を生成している(12月1日以降に投稿された論文で、HTML変換が成功した場合に限る)。

HTML形式の追加

  • HTMLはPDFを置き換えるものではなく、arXiv利用者に提供される追加の形式である。
  • 投稿者は、投稿時にPDFと同様にHTML版をプレビューする機会を持てる。
  • 論文の要旨ページにアクセスすると、PDFリンクのすぐ下にHTML論文を閲覧できるリンクが表示される。

障害のある科学者のアクセシビリティ向上

  • 障害のある科学者が研究にアクセスする際に障壁を経験しており、HTML形式の論文提供を求める要望があった。
  • HTML形式の論文は、スクリーンリーダーのような技術を通じてより容易かつ正確に読み上げられるため、視覚障害、ロービジョン、ディスレクシアなどのある研究者に役立つ。

HTML変換の実験的段階

  • 現在、HTML変換は実験的段階にあり、より正確な変換を目指して作業が進められている。
  • すべての論文が正確にHTMLへ変換されるわけではないが、アクセシビリティを必要とする研究者のために、可能な限り早くこの機能を提供したいとしている。
  • HTML変換に失敗した投稿であっても投稿をブロックしたり保留したりはしないが、著者にはHTML版を注意深く確認してほしいとしている。

HTMLプロジェクトへの謝意

  • 科学を誰にとってもアクセス可能にする大きな一歩である実験的HTMLについて、感謝の言葉を述べている。
  • LaTeX Project、NISTのLaTeXMLチームなど、arXivのHTML論文プロジェクトのパイロットに協力したすべての人々に感謝している。
  • arXivLabsの協力プロジェクトであるar5ivに馴染みのある利用者なら、このHTML提供がその影響力のあるプロジェクトを完全に「内製化」するものであると分かるだろう。
  • 最終目標はarXivの全コーパスをバックフィルしてすべての論文にHTML版を提供することだが、現時点では新規論文に対してのみこの機能を提供している。
  • HTML論文プロジェクトのバグ報告を送ってくれたすべてのarXiv利用者にも感謝しており、チームは現在バグ報告を分析中で、新年に最初の改善作業を行う予定である。

GN⁺の見解

  • arXivによるHTML形式の提供は、研究へのアクセス性を高める重要な前進であり、とくに障害のある科学者にとって大きな助けとなるだろう。
  • こうした変化は、科学コミュニティ内の技術的障壁を減らし、研究の包摂性を高めることに貢献するだろう。
  • 実験的段階ではあるものの、arXivがこの機能を急いで提供することを決めたのは、研究者のニーズを優先する前向きな姿勢を示している。

1件のコメント

 
GN⁺ 2023-12-22
Hacker Newsのコメント
  • 記事にはHTMLの例へのリンクがないけれど、ここに適当なリンクがある: arXiv HTMLの例へのリンク。ダークモードがサポートされているのが良い。トグルは見当たらないが、システムモードに応じてレンダリングされる。モバイルでのarXivのアクセシビリティは大きく向上しそう。
    • HTMLが研究と学術のためのアクセシビリティとコラボレーションを支えるために発明されてから30年後、ホワイトハウスが新しいアクセシビリティ指針を発表した。これはPDFではなくHTMLで初めて正式な新方針を公開したものだ。 ホワイトハウスのアクセシビリティ指針へのリンク
    • arXivの重要な新しいAI/ML論文について情報を得たいなら、Emergent Mindを見てみるといい。このサイトはソーシャルメディア上でのarXiv論文への言及を追跡し(Hacker News、Reddit、X、YouTube、GitHubなど)、ソーシャルメディアでの活動量と論文の投稿時刻に基づいて論文をランク付けしている。各論文についてGPT-4を使った要約を提供し、ソーシャルメディアでの議論、論文の参照、関連論文へのリンクも載せている。まだ新しいサイトで、あまり共有されていない。改善のためのフィードバックや要望を歓迎する。
    • サイドバーにHTMLリンクがない論文があるなら、なぜHTMLにレンダリングされないのか、どうすれば原因を突き止めて修正できるのか知りたい。
    • 自動変換プロセスだけに頼るのではなく、投稿者がPDF版と一緒に自分たちのHTML版もアップロードできるようにするのは良いことだと思う。
      • HTML版の論文に問題があると連絡を受けても、PDFの変更がHTML生成に影響することを期待する以外に修正方法がなく、著者はフラストレーションを感じるかもしれない。PDF側で書式の問題を直接直す方が簡単だ。
      • 論文の代替フォーマットについて実験を許可するのも面白そうだ。たとえば、議論されているプログラミング言語を試せるサンドボックスを含む論文や、多変数微積分の論文である関数の3次元プロットを操作できるようなもの。
    • 常にWebに賭けるのはとても良い判断だ。
    • このサービスに使われているツールはarXiv-readabilityだ。何回かのクリックを省くためにリンクを置いておく。
    • PDFはテキスト文書のレンダリングにおいてHTMLよりはるかに優れている。そしてその差はかなり大きい。これは10年前、いや15〜20年前でさえ可能だった。これが実現されなかったのは単なる惰性ではない。LaTeXとPDFはテキストのレンダリングがはるかに優れており、静的フォーマットは時間の経過の中で固定された状態を封じ込めるので、後から来る人にとって有用だ。HTMLの本質的に流動的な性質とは対照的に。繰り返すが、レンダリングは比較にならず、それは意識的であれ無意識的であれ品質シグナルを伝える。
    • arXivがPDF形式での論文提供をやめないことを願う。PCでもPDFで読む方が好みだ。
    • arXivで大きなPDF(100MB超、高解像度画像の生成に重点を置いたML論文でよくある)を開くと、読み込みバー以外は何も表示されず、10秒以上のかなり長い読み込み時間がある。この遅延の原因が何なのか気になる。ネットワークの問題なのか、それともChromeが大きなPDFのレンダリングに本当に遅いのか。PDFはレンダリングを始める前に完全にダウンロードされる必要があるのだろうか。いずれにせよ、この遅延がarXivに対する唯一の不満であり、文書テキストがすぐに読み込まれる段階的レンダリングのHTML文書は大きな改善になるはずだ。