Abogen - EPUB、PDF、テキストからオーディオブックを生成

(github.com/denizsafak)

10 ポイント投稿者 GN⁺ 2025-08-11 | 1件のコメント | WhatsAppで共有

Abogenは、ePub、PDF、テキストファイルを高品質なオーディオブックへ手軽に変換できるオープンソースツール
変換時に音声と同期した字幕(subtitle)も自動生成される
ユーザー向けカスタム音声のミキシング、エンコード形式、チャプター分割、一括処理(キューモード)など多彩な機能を提供
最新のKokoro-82M音声合成エンジンを使用し、自然なTTS品質と多言語対応を実現
他プロジェクトと比べて直感的なGUI、プロジェクトごとのフォルダ管理、メタデータ自動処理に強みがある

Abogenの概要と重要性

Abogenは、テキストファイル(ePub、PDF、.txtなど)を自然なオーディオブックへすばやく変換するオープンソースのテキスト読み上げ(TTS)ツール
直感的なインターフェース、複数ファイルの一括処理、ユーザー音声ミキシング、多様な出力形式、チャプター管理、メタデータ対応など豊富な機能を備える
他のオープンソースプロジェクトと異なり、シンプルな操作で高品質な音声(特にKokoro-82MベースのTTS)と字幕を簡単に得られる
初期インストール工程や複雑なPython環境設定が自動化されており、初級開発者でも簡単に活用できる
特にプロジェクト単位のチャプター・メタデータ処理、GUI環境、カスタムボイス機能は業界で競争優位と評価されている

主な特徴の要約

テキスト読み上げ(TTS)により、ePub、PDF、テキストファイルを数秒で音声に変換
同期字幕(subtitles)を自動生成し、音声と字幕が完全に一致する形式に対応
ボイスミキサーを使って複数の音声モデルを混合し、自分だけの音声プロファイルを生成
キューモードにより、複数ファイルの一括処理とファイルごとの個別設定の維持をサポート
チャプターマーカー/メタデータの自動生成、プロジェクトフォルダ管理機能
多様な出力形式: WAV、FLAC、MP3、OPUS、M4B などに対応、字幕も SRT/ASS などを選択可能
主な対応言語: 米国/英国英語、スペイン語、フランス語、ヒンディー語、イタリア語、日本語、ポルトガル語、中国語など
Kokoro-82M TTSエンジンベースの高品質で自然な発音を提供
GUI とコマンドラインの両方に対応し、Dockerコンテナも利用可能

Abogenの機能別詳細

#開始とインストールの背景

既存のTTSツールは、インストール、環境設定、品質、カスタマイズ、複数ファイル処理に多くの制約がある
Abogenは、手軽でありながら強力なインターフェースにより、テキスト–音声変換、字幕生成、ボイスミキシングなどの高度な機能を初心者でも簡単に使えるよう設計されている
複数のOS(Windows、Linux、macOS)で利用でき、事前のPythonインストールなしで自動的に内蔵/導入環境を構成できる

#主な使い方

ePub、PDF、またはテキストファイルをドラッグ&ドロップするか、内蔵エディタを利用可能
設定: 読み上げ速度、音声(モデル・性別・言語)、字幕スタイル(文単位・単語単位)、音声・字幕の出力形式、出力パスなどを細かく選択可能
変換開始ボタンをクリックするだけで、すぐに結果を生成

#実際のデモ

低性能GPUでも約3,000文字のテキストを11秒で3分28秒の音声として生成可能
処理速度はハードウェア仕様によって異なる

#設定オプション

入力方式: ドラッグ&ドロップ、内蔵エディタ、キュー管理により複数ファイルの同時処理が可能
読み上げ速度: 0.1x ～ 2.0x で細かく調整
音声選択とプレビュー: 言語・性別ごとのモデル、カスタムミキサーで自分だけの音声プロファイルを指定
字幕生成: 文、コンマ単位、n語単位の字幕を自動化
音声出力: WAV、FLAC、MP3、OPUS、M4B(チャプター付き)
字幕形式: SRT、ASS などのカスタマイズに対応
チャプター・プロジェクト管理: チャプターごとの音声、結合版、メタデータを含むプロジェクトフォルダとして保存
テーマ、ログ、ショートカットなどUIオプションも豊富

#Voice Mixer

複数の音声モデルを重み調整で組み合わせ、ユニークな音声を直接生成・保存・再利用できる
音声ミキシング結果を音声プロファイルとしてプレビューして適用可能

#キューモード

ファイルごとの個別設定を維持しつつ、複数のテキスト・eBookを一度に自動変換
各ファイルはキュー追加時の設定を個別に保存し、メイン設定の変更の影響を受けない

#チャプターマーカー/メタデータ

自動的にチャプター分割タグを挿入
- 手動でも `` タグを挿入可能
- エラー発生時には該当チャプターのみをすばやく再処理しやすい
メタデータタグでタイトル、著者、年などの情報を追加し、オーディオブックアプリで情報を表示可能
- テキストファイルの先頭部分に追加可能

#対応言語

Kokoro-82Mエンジンの多言語対応
英語(米国/英国)、スペイン語、フランス語、ヒンディー語、イタリア語、日本語、ブラジルポルトガル語、中国語など
他言語の字幕はエンジンの技術的制約により、今後追加要望を受け付ける可能性がある

#出力と活用

MPV などの高機能メディアプレイヤーを推奨、同期字幕をサポート
Dockerベースのサーバー実行に対応

#類似プロジェクトとの違い

Abogenは、スタンドアロンGUIとカスタマイズ機能、プロジェクト単位のフォルダ管理、チャプター・メタデータ自動化、キュー処理、ミックス音声など、最高水準の利便性を提供
audiblez、autiobooks、pdf-narrator、epub_to_audiobook、ebook2audiobook と類似点はあるが、GUIの使いやすさ、高度なTTSエンジン、チャプター/字幕同期が差別化ポイント

#ロードマップとコントリビューション

OCR(文書認識)の追加、多言語GUIの強化などを計画
誰でもフォークして機能追加やバグ修正などのオープンソース貢献が可能

#技術クレジットとライセンス

Kokoro-82M TTS、PyQtベースGUI、EbookLib連携など、各種パートナーのオープンソース技術を活用
MITライセンス(商用利用および改変が自由)、エンジン(Kokoro)は Apache-2.0 ライセンス

#注意事項と制限

字幕同期機能は現在英語のみ対応(他言語対応にはKokoroエンジン側の開発が必要)
一部機能(Docker内の音声プレビューなど)には制限がある
インストールおよび環境設定の詳細ガイドは公式ドキュメントを参照

1件のコメント

GN⁺ 2025-08-11

Hacker Newsのコメント

Calibre-Webで本を配信し、Abogenで音声版にして、Audiobookshelfで提供するパイプラインを想像している。聴覚障害者にとっても本当に良いソリューションになりそうだ。Calibre-Web と audiobookshelf を参照
このツールを使ってテキストの本をオーディオブック化し、個人的に消費するのは構わないが、著者がこれを使って配布用ファイルを作るのは非常に危険だ。インディー作家は作品を宣伝するのに大きな苦労をしており、最近では見込み読者がAI使用の痕跡を見ただけで即座に興味を失ってしまう。私の場合、演技が上手く、かつ母語が英語ではない声優や、家庭で別の言語を話している声優を起用し始めている。アクセントを少し強めにしてほしいと頼むこともあるが、このやり方はAIとの差別化にも役立ち、新しい体験を求める人にとって本の魅力も増す。以前、地中海近辺の出身の俳優たちがどれほど生き生きとオーディオブックを録音するかをオーディションで体験して、驚かされたことがある
- 私はAmazonのWhisperSync機能をよく使っている。この機能のおかげで、本を読みながら同時に聴くことができる。移動中でも時々視覚的に内容を確認したり、後でハイライトしたりできるので本当に便利だ。欠点を挙げるなら、この機能に対応している本があまり多くないことと、Kindleアプリに標準搭載されている読み上げ機能の品質がいまひとつなことだ。だから個人的には、優れた人間が書いた本に追加でAI音声機能が付くなら本当にうれしい
- 最近、見込み読者がAIの痕跡を見ただけで本を避けるというのが本当に一般的なのかはよく分からない。テキストを読む場合、結果さえ良ければAIが読んでいようが何だろうが、たいていの人は気にしないように思う。人々はAIが書いた本は望まないが、AI音声でテキストを読むこと自体は、記事や本を聴く際にかなり前から気軽に使っている。これは演技や声の演出とは別の話だ
これは単にテキストを音声に変換するだけなのか、それとも本当にオーディオブックらしく作ってくれるのか気になる。良いオーディオブックでは、声優が登場人物ごとに異なる演技をし、アクセントや方言も変えて表現することが多い。こうしたことはchatgptのようなツールでも数文ならできそうだが、8〜20時間のオーディオブック全体となると簡単ではない。現状では、epubを最先端レベルのオーディオブックにするには依然として根本的な壁があると思うが、何か見落としているだろうか
- Elevenlabsには「フルキャスト」スタイルの生成機能があり、異なるキャラクターに別々の声が割り当てられることもある。ただし、方言に自動で敏感というわけではない。現在のシステムでも、文脈やプロンプトに応じてアクセントや話し方を変えることは可能ではあるが、その信頼性については分からない
- ミキサーを使ってさまざまなキャラクター音声を混ぜ、いろいろな雰囲気を出すことができる。異なるキャラクターに合う声を自分でコードで指定して入れることも可能だ
- 実のところ、私は複数キャラクターの声の演出はあまり好きではない。文脈に応じて引用文を適切なトーンやアクセントで読んでくれるのは良いが、人物ごとに声を変えるのは好きではない
このツールはabogenアプリ実行時にpipが必要なので、pip が使える環境で動かす必要がある。uv tool run abogen コマンドで開始できるが、モデルのインストール段階で止まる。uv venv && uv pip install pip && source .venv/bin/activate && abogen とすると正しく動くことを確認した。パッケージ化されたGUIもよくできていて、PDFファイルからページやセクションを選ぶUIも良く、私のラップトップのGTX 1650でも速度は速い。出力は .ogg 音声と .ass 字幕ファイルで、mpvで開けばターミナルで聴きながら読むこともできる。ひとつ惜しいのは、PDF原本の改行がそのまま残るため、文の途中で長く切れて理解の妨げになる場合があることだ。single newlineをスキップする機能を有効にすると確かに改善する
- 私はRTX 4060で110ページの本を約1時間でwavに変換した。改行スキップ機能を有効にしないと出来は今ひとつだった。このオプションを有効にすると本当に素晴らしい。af_heartの声が個人的にはとても気に入っていて、af_jessicaはやや耳障りだ。オーディオブックで最大の問題は、声優の好みが本の内容と同じくらい重要だという点だ。こういう日がすぐ来るだろうとは思っていたが、実に感嘆すべきだ。オーディオブックに慣れすぎて、実際の本を最後まで読むのが難しいくらいだ。市場性がなくて声優が読んでくれないような本を20冊ほど、この機能で自分の好きな声に簡単に変換できるようになったのは本当に驚きだ
私はオーディオブックが大好きだが、ナレーションにはうるさい。自分に合わない声優のせいで途中で聴くのをやめたオーディオブックも多い。こういうサービスを自分が本当に使えるようになるには、まだかなり時間がかかりそうだ
- 良い声優のおかげでシリーズ全体を買って聴いたこともある。たとえばGrim Noir ChroniclesやSoundbooth Theaterのフルキャスト作品がそうだった。単にテキストを振動に変えるだけでよいならTTS技術でも十分だが、まだAIナレーションは人間の声優が与えてくれるような体験を提供できていないと思う
- 私も声優が原因でオーディオブックを途中でやめたことがあるが、逆にAIの中立的でそれなりに良い声なら、以前はつらくて聴けなかった本を最後まで聴けるかもしれない。むしろ公式ナレーションのぎこちない声より、すっきりしたAI音声の方が良い選択になるのではと期待している
- R. C. Brayがナレーションしていたシリーズが突然別の声優に変わって、急に聴きづらくなり、完聴を諦めたこともある。一方で、Wil Wheatonのようにわざわざ探して聴く声優もいる。結局のところ、オーディオブックでは声優が作品を生かすことも壊すこともある
- 一番好きなオーディオブックは何？
テキスト以外にコード、図表、画像などがある本にはあまり向かない気がする（これは当然ではある）。PDFページを受け取って「純粋な散文」版に変換してくれるオープンソースのニューラルネットがあるのかも気になる。たとえば、画像とテキストが一緒にあるページなら、画像の内容や描写までテキスト化してくれるようなものだ
ブログや記事など短い分量にはKokoro TTSを使ってみたが、期待には届かなかった。今はGemini 2.5 Flash TTSのほうが性能もずっと良く、無料枠も寛大だ（1回の生成で10分、1日90分）。短い文章では音声の一貫性の問題はあまり感じないが、本一冊のように長くなると、これは間違いなく問題になる
- KokoroはTTSとして悪くないが、感情表現が足りない。このモデルのサイズを考えると仕方ない気もする
哲学書をオーディオブック化してアクセシビリティを高めようとこのツールを試したが、重要な問題があった。Kokoroに入力する文が長すぎると、末尾の単語や文が飛ばされたり不明瞭になったりする。abogenはテキストを文単位で切って入力するが、文が長いとそのままKokoroに渡されるため、オーディオブック自体が使い物にならないレベルになる。そこで、nltkと正規表現でもっと細かく分割する自作のtkinter GUIアプリを作っている
- 私は「kokoro-tts」CLIのほうが分割機能が優れていて、満足して使っている kokoro-tts。このツールは各章ごとの音声ファイルとメタデータも一緒に作ってくれる。m4b-toolで音声ファイルを連結し、章情報も追加できる m4b-tool。このやり方について投稿を書いてみたいくらい、本当に便利だ
- 最近のディープラーニングTTSは出力があまりにも非決定的で不満だ。古典的な方式のほうが予測可能な発音をしてくれるので、むしろ良いと感じる
個人的には、PDFをきちんと整理されたePubにしてくれるソリューションが出てくることを期待している
Kokoro TTSをCLI用のaudiblezと一緒に使ってみた。小さなモデルだが、速度も速く音質も印象的だった。ただ、いくつか惜しい点がある。a) 文末のピリオドと "Mr." "Mrs." のような略語のピリオドを区別できず、不自然なポーズが入る、b) 三点リーダー (...) の扱いがうまくない、c) 文脈が違っても単語の発音が常に同じ
- SSML phonemeタグを活用するのもひとつの方法だ。一部のTTSはこれをサポートしている。強力なLLMで前処理すれば、こうした問題を避けられる
- Mr. / Mrs. のような問題はかなり簡単に直せそうだ。少なくともよくあるケースの一部は取り除けると思う

Abogen - EPUB、PDF、テキストからオーディオブックを生成

Abogenの概要と重要性

主な特徴の要約

Abogenの機能別詳細

#開始とインストールの背景

#主な使い方

#実際のデモ

#設定オプション

#Voice Mixer

#キューモード

#チャプターマーカー/メタデータ

#対応言語

#出力と活用

#類似プロジェクトとの違い

#ロードマップとコントリビューション

#技術クレジットとライセンス

#注意事項と制限

関連記事

1件のコメント

Hacker Newsのコメント