24 ポイント 投稿者 GN⁺ 2025-01-16 | 3件のコメント | WhatsAppで共有
  • Kokoro v0.19は最近発表されたテキスト音声変換モデルで、82Mのパラメータを持ち、非常に高品質な出力を提供する
    • Apacheライセンスで、100時間未満の音声で学習されている
    • 米国英語、英国英語、フランス語、日本語、韓国語、中国語をサポートし、さまざまな高品質の音声を提供する
  • Kokoroの活用

    • ユーザーは、電子書籍をオーディオブックに変換できるAudiblezというツールを通じてKokoroを活用できる。
    • Audiblezは.epubファイルを解析し、書籍の本文を録音品質の高い音声ファイルに変換する。
    • 例えば、M2 MacBook Proでは約100,000語の書籍を変換するのに約2時間かかる。
  • インストールと実行方法

    • Python 3がインストールされたコンピューターで、pipを通じてAudiblezをインストールできる。
    • Python 3.13では動作しない。
    • 約360MBの追加ファイルをダウンロードする必要がある。
    • .epubファイルをオーディオブックに変換するには、コマンドを実行する必要がある。
  • 対応言語と音声

    • -lオプションを使って言語を指定でき、対応する言語コードはen-us、en-gb、fr-fr、ja、ko、cmnである。
    • -vオプションを使って音声を指定でき、さまざまな音声が提供される。
  • 章検出

    • 章検出はやや不安定だが、ほとんどの.epubファイルで主要な章を見つけられる。
    • 目的の章が含まれない場合は、コードのis_chapter関数を調整してみることができる。
  • ソースコードと改善点

    • AudiblezプロジェクトはGitHubで確認できる。
    • 今後の改善点として、より優れた章検出、章ナビゲーションの追加、画像に対するナレーションの追加などがある。

3件のコメント

 
crawler 2025-01-16

これより大きくて優れたモデルもありますが、用途が違うと考えるべきだと思います。
Kokoroはサイズが小さくて高速で、品質も悪くないという点で、とても評判が良いです

 
munggo 2025-01-16

韓国語版はロシア語のように聞こえますね。聞けたものではないレベルです。

 
GN⁺ 2025-01-16
Hacker Newsのコメント
  • オーディオブックのナレーターがテキストをうまく解釈してくれることがあり、AI音声の利用には複雑な気持ちがある

    • 複数のナレーターや各キャラクターごとの異なる声があるオーディオブックは、特別な体験を提供してくれる
    • 会話中に誰が話しているのかを見分ける唯一の手がかりが、声のトーンの変化であることもある
    • アマチュア制作の電子書籍や、Project Gutenbergのようなパブリックドメインのオーディオブックよりは、AI音声のほうを好む
  • AI生成音声は1分以上聴くのがつらく、YouTubeでAI音声が流れるとすぐにスキップする

    • これは、私たちの脳が話し手の感情や間、目に見えない微笑みのようなものまで感じ取ろうとするからかもしれない
    • モデルが改善されれば、AI生成音声かどうかを見分けるのは難しくなっていくだろう
  • カスタム音声でTTSを生成するためのオープンソースの選択肢のおすすめを求めている

    • Coqui TTSを試してみる予定
  • テキストと音声をボタンひとつで切り替えられる電子書籍リーダーが欲しい

    • ソファで本を読んでいて、皿洗いをしながら音声モードに切り替えられる機能を想像している
  • 特定のオーディオブックのナレーターの声で、電子書籍をオーディオブック化するアイデアを持っている

    • Infinite Conversationプロジェクトに着想を得たが、まだ実行できていない
  • さまざまなTTSモデルを試したが、ほとんどは平凡だったり、Macで動かなかったり、非常に遅かったりした

    • 今回のモデルは高速で、インストールが簡単で、まずまずの音声を提供してくれる
    • オーディオブック版がない本は読まない
    • 以前は elevenlabs を使っていたが、個人利用には価格が高すぎる
  • 2025年には、ニューラルネットワークを使って、背景音楽や効果音、ドラマチックなナレーション付きのオーディオブックを生成できるようになるだろう

  • 「kokoro」は日本語で「心」を意味する

  • Calibreの電子書籍管理ソフトウェアにプラグインが追加され、epubライブラリ内の選択したタイトルを簡単に音声版へ変換できるようになってほしい

  • 可変速度の引数が追加されて、とても満足している