ArXiv Paper Reader - ArXivの論文を音声/動画で読めるようにするオープンソース
(github.com/imelnyk)- ArXiv論文を手軽に読めるよう要約し、その後GPTを使って音声/動画化するコード
- 視覚的に学ぶ人向けには論文を動画形式に、聴くことを好む人向けには音声に変換
- 動作ステップ
- ArXiv IDを通じて論文のソースコードをダウンロード
latex2htmlまたはlatexmlcを使用してLaTeXコードをHTMLページに変換- HTMLページからテキストと数式を抽出し、表や図などは無視
- 動画生成時、PDFページとテキスト、ページブロックに対応するテキストチャンクをマッピング
- テキストをセクションに分け、OpenAI GPT APIを通じて文を再構成・単純化・説明
- GPTで生成されたテキストをチャンクに分け、Googleのテキスト音声変換APIを使用して音声に変換
- 必要なすべての要素をパッケージ化し、動画処理用のzipファイルを生成
- 事前に計算したテキスト-ブロックマップを使って
ffmpegで動画を生成
1件のコメント
動画まで? と驚いて YouTube を見に行ったら、ただの論文ページのキャプチャ + 音声なんですね。
OpenAI Sora が公開されたら、論文そのものをさらに解釈して説明する動画まで生成できるようになるのではないかと思います。
公式 YouTube チャンネル : https://www.youtube.com/@ArxivPapers