- Eleven v3 (Alpha) は、感情や音声効果まで精密に制御できる、これまでで最も表現力豊かなテキスト読み上げ(TTS)モデルです
- オーディオタグを活用して、感情、話し方、方向性、効果音など、さまざまな音声要素を自由に組み合わせることができます
- 複数の話者が会話する自然なオーディオを生成でき、70以上の言語で人間に近い音声をサポートします
- v2と比べて音声感情の幅と効果適用範囲が大きく拡張されており、UIユーザーは2025年6月末まで80%割引の特典を受けられます
- API対応は近日公開予定で、さまざまな音声・状況別タグはプロンプトガイドで確認できます
Eleven v3 の概要
- Eleven v3 (alpha) は、従来バージョンと差別化された、感情表現と没入感のある音声生成が可能な次世代Text to Speech(TTS)モデルです
- このモデルは、入力されたテキストを人が実際に読むのに近い形で、感情、イントネーション、リズムを表現しながら音声へ変換します
- ユーザーはオーディオタグを使って、音声の感情、話し方、音響効果、背景サウンドまで細かく制御できます
- テキスト内に感情、効果、演出タグを挿入することで、単なるナレーションを超えた立体的なオーディオ制作が可能となり、没入感と現実感が大きく向上します
複数話者の会話生成
- 複数の話者が自然に文脈と感情を共有しながら会話するオーディオ生成をサポート
- 各話者ごとのプロソディ(韻律)、感情、タグが反映され、人間に近いオーディオ合成を実現
多言語音声対応
- アフリカーンス語、アラビア語、ドイツ語、中国語、日本語など、70以上の言語を公式にサポートしています
- 各言語の特徴的なイントネーション、発音、アクセントを自然に再現します
- 多国籍サービス、教育コンテンツ、グローバルアクセシビリティプロジェクトなど、さまざまな分野で高い活用性があります
v3 と v2 の主な違い
- Dialogue Mode: 複数話者の会話をサポート
- Audio Tag対応: 感情、方向性、効果など多様なオーディオタグを活用可能
- 感情・効果の範囲: v2は一時停止などの基本タグ、v3は豊かな感情とオーディオ効果を適用可能
- 言語: v3は70+言語、v2は29言語
- アフリカーンス語、アラビア語、アルメニア語、アッサム語、アゼルバイジャン語、ベラルーシ語、ベンガル語、ボスニア語、ブルガリア語、カタルーニャ語、セブアノ語、チェワ語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、ジョージア語、ドイツ語、ギリシャ語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、キルギス語、韓国語、ラトビア語、リンガラ語、リトアニア語、ルクセンブルク語、マケドニア語、マレー語、マラヤーラム語、標準中国語、マラーティー語、ネパール語、ノルウェー語、パシュトー語、ペルシア語、ポーランド語、ポルトガル語、パンジャーブ語、ルーマニア語、ロシア語、セルビア語、シンド語、スロバキア語、スロベニア語、ソマリ語、スペイン語、スワヒリ語、スウェーデン語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語、ウェールズ語
音声品質とユーザー体験
- 音声合成時にノイズが少なく、高解像度品質のオーディオファイルを出力できます
- 文章の長さ、感情のニュアンス変化、話す速度など細かな調整が可能で、カスタム音声の制作が容易です
- 従来のTTSソリューションでは再現が難しかったダイナミックな感情や発話スタイルを表現できます
競争力と適用可能性
- コンテンツ制作者、開発者、企業が、オーディオブック、ゲーム、広告、アクセシビリティ向上サービスなどに即座に適用できます
- 単一モデルで多言語・多目的サービスが可能なため、コストと時間を削減できます
- オープンアルファ(Alpha)段階ですでに実サービスへ導入可能な水準の音声品質と多様性を確保しています
割引とAPI対応
- 2025年6月末までUIユーザーは80%割引価格で v3 Alpha を利用可能
- APIは近日公開予定
結論
- Eleven v3 は、Text to Speech 技術分野において、表現力、多言語対応、カスタム音声機能を強化した最新モデルです
- さまざまな産業分野で高まる自然な音声生成技術の需要に効果的に対応できます
2件のコメント
アルファ版ですが、いいですね..
良い情報をありがとうございます。
Hacker Newsの意見
ドキュメントやプロンプトガイドで歌への言及を見かけなかったので、もともと歌えるモデルなのか気になった。
試しに Friends のテーマ曲の歌詞をデモに入れてみたところ、ギター音つきで歌う声が出てきた。
別の実験では
[verse]と[chorus]ラベルを追加すると、アカペラ版で歌った。[1] と [2] は歌詞だけを入力し、[3] は verse/chorus タグを入れた。
別の有名曲でも試したが、なぜかここまできれいな歌唱モードにはならなかった。
出力が歌うのは不思議だが、歌そのものはものすごく下手で、そこがかえって面白い。
まったく歌えない人が歌っているような感じ。
実際の Friends のオープニングとはかなり違って聞こえるので、学習データにありがちな馴染みのパターンへ過学習した結果ではなさそうだという推測。
Mirage AI ではかなり良い歌唱品質を実現している。
モデルのデモにも歌が含まれていたのを見た記憶がある。
なので、おそらくこの機能は組み込みなのだと思う。
興味深いことに、次のようなプロンプトで試してみると、最後の
"purr"の部分でモデルが少し苦しむ傾向が見られた。最近は OpenAI の新しいモデルをかなり実運用している(openai.fm)。
指示文と発話テキストを分離する方式が独特で、おそらく OpenAI 側は製品全体で
instructionsという概念を多用してきたため、この方式での学習やデータ生成により慣れているのだと思う。指示文分離方式はやや不自然にも感じるが、利点は一般的な指示と特定状況の指示を混ぜて使いやすい点にある。
たとえば、
"but actually"という言葉の後で声をささやくように低くし、少し恐怖感を出すとか、"英国アクセントの低く深い声"のような一般指示を一緒に付けられる。OpenAI の出力は Eleven Labs と比べて予測しづらく、プロダクション品質の印象はやや劣る。
ただし prosody(韻律表現)の幅ははるかに広く、むしろ頑張りすぎている感じすらある。
声の種類は Eleven Labs より少なく感じられ、複数スタイルをやらせても少し「同じ人が別の声を真似している」ように聞こえる。
ただ、OpenAI の圧倒的な利点は価格が 10 倍ほど安く、完全な従量課金だという点だ。
(TTS サービスが月額サブスクや追加課金クレジットまで要求するのは本当に非効率だ。)
私が ElevenLabs を使わず、品質が低くても別ソリューションを選ぶ理由は、必要な分だけ使いたいのに、月単位の塊で課金され、追加利用時もさらに大きな塊でしか買えないサブスク構造が嫌だからだ。
自分にとってはこの価格体系はかなり良くない。
例の文句
"Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."のような機械の応対には侮辱感を覚えそうだ。単に助けが欲しいだけなのに、機械に感情面で弄ばれるようならひどい未来だと思う。
人間相手でもこういう返答は苛立つのに、AI にまで聞きたくない。
そもそもコンピュータと話すこと自体を楽しむ性質ではないので、Siri 系の音声インターフェースはまったく使わない。
人間のように話す機械も求めていない。
スタートレックのコンピュータのように「処理中…」と答えるだけで十分だ。
雑談は抜きで、すぐ要点だけ返してほしい。
ChatGPT のプロフィールに、検証や共感など余計な前置きを全部禁止する文を 5 つくらい入れても、結局毎回「あなたの懸念はもっともです」系の返答が返ってきて、何も変わらない。
アメリカ風の余計なお世話コメント(
"champ","bud")がヨーロッパやオーストラリアでも通じるなら面白そうだ、という期待。映画 Her に似たセリフで、声も Scarlett Johansson にものすごく近く、この音はそこから着想を得たのではと感じた。
「たいていのことはお手伝いできます」「今、注文番号をお調べします」系の台詞に、実際には存在しないリンクを出す幻覚事例をネタにした冗談。
実用上の問題ではないかもしれないが、面白い点を見つけた。
言語を日本語に設定したうえで
真面目に考えると、複数言語を同時に扱ってみると、入力言語はモデル処理の初期段階で「正規化」されている感じがする。
つまり、英語でプロンプトを書いても日本語で書いても結果は大きく変わらない。
システムプロンプトがここでは違うふうに動いているのか気になる。
気になる人のために情報を残しておく。
このモデルは tortoise-tts-fast ベースだ。
このプロジェクトの開発者は後に Eleven Labs に採用された。
「採用された」ではなく、実際には v3 リリースの 6 か月前にはすでに退職している。
前の主張(このプロジェクトが Eleven Labs 採用につながったという話)は、因果関係として成り立たない。
(アメリカ英語の)音声は本当に見事な水準だが、笑いタグの部分は「ここで笑ってください」という独立セクションの挿入で、自然な瞬間的な笑いというより、強制区間の挿入のように感じる。
たとえば、単語の途中を笑いながら発音すべき場面は、まだ不自然だ。
文脈上、笑いが自然に入る位置にテキストを編集するとずっと自然になるので、このサンプル を参考にするのがおすすめ。
まだ価格が高いので、競合サービスには大きな機会がある。
ElevenLabs は品質面で依然としてリーダーだが、競合も急速に追いついている。
特に中国の AI 研究所や企業も完全オープンソースの TTS モデルを出しており、米国企業の立場から見てもエコシステムの変化を後押ししている。
こうした流れは最終的にユーザーの利益になる。
Y Combinator が投資した PlayHT も多くの良い機能をリリースしている。
出力が本当に卓越していて、99% はプロの声優と区別がつかないほどだ。
料金情報を見つけられなかったのだが、知っている人はいるだろうか。
Eleven v3(アルファ)向けの公開 API がまもなくリリース予定だという告知を確認した。
先行体験への参加や価格相談は sales チームに問い合わせてほしいという文面だった。
まだ会社側でも正確な価格を決めておらず、まず需要を見たいのだと思う。
うーん……私はプロの声優だ。
それでも実際の人間ではなく、単なる「AI」にすぎない。
実際の人が直接語る音楽、オーディオブック、詩、小説、演劇、そういったものは聞かれ続けるべきだ。
それが自分の求める本質的な楽しみだ。
この話は少し話題から外れるかもしれないが(それでも TTS とは関連があるので……)、
elevenという単語を聞くと、スコットランドのエレベーター音声認識のジョーク動画を思い出す。Elevator Voice Recognition コメディ動画
英国アクセントのサンプルを見ていない気がする。
全体として TTS システムはアメリカ英語アクセントばかりで、英国アクセントは Frasier のような「アメリカ人が真似した英国風」に聞こえる。
私たちのボイスライブラリには多様な英国系ボイスがたくさんある。
あるいはプロンプトの先頭に
[British accent]を付ければ、アメリカ人が英国風を真似する形で生成される。Frasier Crane のアクセントの問題は、アメリカ人俳優がアメリカ人キャラクターとして、場面によってはアメリカ風だが、トランスアトランティックあるいはボストン・ブラーミンのアクセント(またはその混合)を演じていた点にあり、議論の余地がある。
どちらのアクセントにも英国系と共通する特徴が一部ある。
参考までに言うと、Frasier 系は「英国風の真似」ではなく、ボストン・ブラーミン/トランスアトランティック系のアクセントだ。
ElevenLabs v2 のアクセント音声は、まだ競合他社よりはるかに優れている。
アラビア語、フランス語、ヒンディー語、英語など、さまざまな言語で実際に使ってみた。
英語は本当に素晴らしく聞こえる。お祝いを伝えたい。
ただ、私が試した他の言語では、まだ強い英語訛りが残っていた。
イタリア語では、完全にコミカルなアメリカ訛りで始まるのだが、10〜20 語ほど進むと急に本物のイタリア風発音に変わる。
Alice ボイスを使ったが、内部的には en-us ベースで始まって、設定言語に合わせて急激に寄せているように感じた。
裏で何が起きているのか気になる。
フランス語は、アラバマ出身の人が大学で少しだけフランス語を学んだ程度のアクセントに聞こえた。
それでも英語は本当に良かった。
ポルトガル語の場合、Liam ボイスは興味深いことにスペイン訛りだ。
言語アイコンはポルトガル語なのに、表現スタイルは明らかにブラジル・ポルトガル語だ。
スウェーデン語は完全にアメリカ風だった。
その言語をベースに学習されたボイスで試してみるのを勧める。
今回の research preview は性能が均一ではなく、ボイス選択によって品質差が大きい。