Play 3.0 Mini公開 - 軽量でコスト効率の高い多言語Text-To-Speechモデル

(play.ht)

23 ポイント投稿者 GN⁺ 2024-11-03 | 4件のコメント | WhatsAppで共有

30以上の言語で、業界最高クラスの速度と精度により、どんな声やアクセントでも話せる、最も高性能で会話的な音声モデル
- さらに、複数言語にまたがって50以上の新しい会話型AI音声も公開
TTSを使ってリアルタイムアプリケーションを構築する際には、レイテンシ、信頼性、音質、そして音声の自然さが非常に重要

Play 3.0 miniはこれまでで最も高速な会話型音声モデル

3.0 miniはTTFBで平均189ミリ秒のレイテンシを達成し、最速のAI Text to Speechモデルとなった
LLMからのテキスト入力ストリーミングと音声出力ストリーミングをサポートし、HTTP REST API、WebSocket API、またはSDKを通じて利用可能
3.0 miniはPlay 2.0よりも効率的でもあり、推論速度は28%高速化

Play 3.0 miniは30以上の言語で全音声をサポート

Play 3.0 miniは、複数の男性・女性の音声オプションを備えた30以上の言語をネイティブでサポート
英語、日本語、ヒンディー語、アラビア語、スペイン語、イタリア語、ドイツ語、フランス語、ポルトガル語の音声は、現在プロダクション用途で利用でき、APIとプレイグラウンドで使用可能
さらに、アフリカーンス語、ブルガリア語、クロアチア語、チェコ語、ヘブライ語、ハンガリー語、インドネシア語、マレー語、北京語、ポーランド語、セルビア語、スウェーデン語、タガログ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、コサ語もテスト可能

Play 3.0 miniはより高精度

Play 3.0 miniの目標は、会話型AI向けの最高のTTSモデルを作ることだった
これを実現するために、このモデルは最も会話的なトーンで音声を生成しながら、レイテンシと精度の両面で競合モデルを上回る必要があった
LLMはハルシネーションを起こしうるが、音声LLMも例外ではない。音声LLMにおけるハルシネーションは、入力テキストにない単語や数字が出力音声に追加されたり、逆に欠落したりする形で現れることがある

Play 3.0 miniはアルファベットと数字の組み合わせをより自然に読む

人間のように数字や頭文字を読めるよう、モデルを訓練した
モデルは速度を調整し、すべてのアルファベット文字と数字文字をゆっくり読む
たとえば電話番号はより自然な速度で読み上げられ、同様にすべての頭文字や略語もそのように処理される
これにより、全体的な会話体験がより自然になる

Play 3.0 miniは音声クローンに最適な音声類似性を実現

音声を複製する際、単に似た音であるだけでは不十分なことが多い
Play 3.0の音声クローンは、音声複製において最先端の性能を達成し、複製された声のアクセント、トーン、抑揚を正確に再現
人気のあるオープンソースの埋め込みモデルを使ったベンチマークでは、元の音声との類似性において競合モデルを大きく上回った
play.aiで自分の声を複製し、自分自身と会話してぜひ試してみてほしい

WebSocket APIをサポート

3.0 miniのAPIはWebSocketをサポートするようになり、HTTP接続のオープン・クローズのオーバーヘッドを大幅に削減し、LLMやその他のソースからのテキスト入力ストリーミングをより簡単に有効化できる

Play 3.0 miniはコスト効率の高いモデル

より大きなボリュームのスタートアップおよびグロース層向けの価格引き下げを発表できることをうれしく思う。また、より控えめな要件を持つ企業向けに、月額49ドルの新しいProティアも導入した
新しい価格表はこちらで確認できる
皆さんが私たちと一緒に何を作るのか楽しみにしている。大規模なカスタム要件がある場合は営業チームに問い合わせてほしい

GN+の意見

会話型AI向けに最も信頼できる音声モデルを開発しようとするPlay.htの取り組みは印象的だ。レイテンシと精度の両面で競合を上回り、最も自然な会話型音声を生成するという点で、このモデルは業界をリードしそうだ
30以上の言語と多様な音声オプションをサポートすることは、より多くのユーザーとユースケースに到達するための重要なステップだ。これは音声AIの幅広い普及に役立つだろう
ただし、この技術を採用する際には倫理的な配慮を念頭に置く必要がある。たとえば、同意なく個人の声を複製することはプライバシーの問題を引き起こしかねない。また、この技術が偽情報の拡散に悪用される可能性もある
同様の機能を持つ他の注目すべき音声AIプロジェクトとして、GoogleのTacotronやDeepMindのWaveNetがある。これらのモデルも多言語対応と自然な音声生成に重点を置いている
結論として、Play 3.0 miniは会話型AIにおける音声技術の新たな基準を提示している。開発者はさまざまなリアルタイムアプリケーション向けに、高速で高精度、かつ自然なTTSを活用できるようになるだろう。しかし、この技術の潜在的な悪用を防ぐためには、強力な安全策と倫理ガイドラインが整備される必要がある

4件のコメント

dane1 2024-11-04

でも、Playground を見たら Korean がまたありますね？

dane1 2024-11-04

えっ、こんなにたくさんの言語に対応しているのに Korean がないなんて（泣）

hmmhmmhm 2024-11-03

残念ながら、韓国語はまだ対応していないようですね（涙）

GN⁺ 2024-11-03

Hacker Newsの意見

最近公開されたオープンソースのTTSモデルは、優れた音声クローニング機能を提供している。10GB VRAMのNVIDIA GPUで実行可能。
Firefoxではライブテストが動作しなかったが、Chromeに切り替えるとすぐに動いた。30秒で自分の声を複製して会話できた。ほとんどの人をだませるほど精巧。
このモデルは、CartesiaやOpenAIのTTS APIよりコストが高い。一般的にTTS APIはLLMより高いマージンで運用されている。
英語以外の言語では、文字起こし機能はあまり役に立たない。正確に文字起こしできれば翻訳と音声応答は非常に速いが、文字起こしの精度が低いと役に立たない。
夏の間にGoとRust向けのAPIクライアントを書いた。当時勤務先でPlayを使っていたが、PythonとNodeのSDKしか存在しなかった。
自分に似た声との低遅延な会話は、やや不安な気持ちにさせることがある。しかし非常に考えさせられる体験でもある。
複製された声は非常によく似て聞こえたが、ブラインドテストでは5人全員がそれを自分の声だと認識できなかった。自分の声を聞くときにバイアスがあるのではないかと思う。
OpenAIのモデルは数字の発音があまり良くない。2024年にもなって数字を正しく発音できないTTSモデルが公開されたことに驚いた。新しいTTSモデルは少なくとも100,000までの数字を検証すべきだと思う。