- Kokoro v0.19は最近発表されたテキスト音声変換モデルで、82Mのパラメータを持ち、非常に高品質な出力を提供する
- Apacheライセンスで、100時間未満の音声で学習されている
- 米国英語、英国英語、フランス語、日本語、韓国語、中国語をサポートし、さまざまな高品質の音声を提供する
-
Kokoroの活用
- ユーザーは、電子書籍をオーディオブックに変換できるAudiblezというツールを通じてKokoroを活用できる。
- Audiblezは
.epubファイルを解析し、書籍の本文を録音品質の高い音声ファイルに変換する。
- 例えば、M2 MacBook Proでは約100,000語の書籍を変換するのに約2時間かかる。
-
インストールと実行方法
- Python 3がインストールされたコンピューターで、
pipを通じてAudiblezをインストールできる。
- Python 3.13では動作しない。
- 約360MBの追加ファイルをダウンロードする必要がある。
.epubファイルをオーディオブックに変換するには、コマンドを実行する必要がある。
-
対応言語と音声
-lオプションを使って言語を指定でき、対応する言語コードはen-us、en-gb、fr-fr、ja、ko、cmnである。
-vオプションを使って音声を指定でき、さまざまな音声が提供される。
-
章検出
- 章検出はやや不安定だが、ほとんどの
.epubファイルで主要な章を見つけられる。
- 目的の章が含まれない場合は、コードの
is_chapter関数を調整してみることができる。
-
ソースコードと改善点
- AudiblezプロジェクトはGitHubで確認できる。
- 今後の改善点として、より優れた章検出、章ナビゲーションの追加、画像に対するナレーションの追加などがある。
3件のコメント
これより大きくて優れたモデルもありますが、用途が違うと考えるべきだと思います。
Kokoroはサイズが小さくて高速で、品質も悪くないという点で、とても評判が良いです
韓国語版はロシア語のように聞こえますね。聞けたものではないレベルです。
Hacker Newsのコメント
オーディオブックのナレーターがテキストをうまく解釈してくれることがあり、AI音声の利用には複雑な気持ちがある
AI生成音声は1分以上聴くのがつらく、YouTubeでAI音声が流れるとすぐにスキップする
カスタム音声でTTSを生成するためのオープンソースの選択肢のおすすめを求めている
テキストと音声をボタンひとつで切り替えられる電子書籍リーダーが欲しい
特定のオーディオブックのナレーターの声で、電子書籍をオーディオブック化するアイデアを持っている
さまざまなTTSモデルを試したが、ほとんどは平凡だったり、Macで動かなかったり、非常に遅かったりした
2025年には、ニューラルネットワークを使って、背景音楽や効果音、ドラマチックなナレーション付きのオーディオブックを生成できるようになるだろう
「kokoro」は日本語で「心」を意味する
Calibreの電子書籍管理ソフトウェアにプラグインが追加され、epubライブラリ内の選択したタイトルを簡単に音声版へ変換できるようになってほしい
可変速度の引数が追加されて、とても満足している