Gemini 3.1 Flash TTS - 自然言語で音声スタイルを制御する次世代AI音声モデル
(blog.google)- Googleが新たに公開したテキスト読み上げモデルで、従来より向上した自然さと表現力を備え、開発者・企業・一般ユーザーのすべてに向けたAI音声アプリケーション構築を支援
- 新たに導入されたオーディオタグ機能により、自然言語の命令をテキストに直接挿入して、音声スタイル、速度、伝え方を細かく制御可能
- Artificial Analysis TTSリーダーボードでEloスコア1,211を記録し、高品質な音声生成と低コストの理想的な組み合わせと評価
- 70以上の言語をサポートし、ネイティブなマルチスピーカー対話機能を内蔵
- 生成されるすべての音声にSynthIDウォーターマークが適用され、AI生成コンテンツの信頼できる検出と誤情報防止が可能
提供開始と配信チャネル
- Gemini 3.1 Flash TTSは最新のテキスト読み上げモデルで、強化された制御性、表現力、品質を提供
- 現在、以下のチャネルを通じてプレビュー提供中:
- 開発者向け: Gemini API および Google AI Studio
- 企業向け: Vertex AI
- Workspaceユーザー向け: Google Vids
向上した音声品質と制御性
- 全体的な音声品質が改善され、現時点で最も自然で表現力のあるモデル
- Artificial Analysis TTSリーダーボードで、数千件のブラインド方式による人間の嗜好評価に基づきElo 1,211を達成
- Artificial AnalysisはGemini 3.1 Flash TTSを、高品質な音声生成と低コストの理想的な組み合わせとして「most attractive quadrant」に配置
- ネイティブなマルチスピーカー対話、70以上の言語対応、自然言語ベースの細かな創作制御機能によって差別化
オーディオタグによる表現力の強化
- 新しいオーディオタグ機能の導入により、音声スタイル、速度、伝え方を直感的に制御可能
- テキスト入力に自然言語の命令を直接挿入して、AI音声出力を細かく調整
- 企業はVertex AI内でオーディオタグを活用し、次世代エンタープライズアプリケーションを構築可能
- Google AI Studioでは、開発者を「director's chair」に座らせる構成可能なコントロールを提供:
- Scene direction: 環境を定義し、具体的なセリフ指示を設定することで、キャラクターが複数ターンにわたって自然に反応するためのワールドビルディングコンテキストを提供
- Speaker-level specificity: 固有のAudio Profileでキャラクターをキャスティングし、Director's Notesで速度・トーン・抑揚を調整し、インラインタグによって文中でも表現を切り替え可能
- Seamless export: 完成したパラメータをGemini APIコードとしてエクスポートでき、さまざまなプロジェクトやプラットフォームで一貫した音声を維持可能
- こうした構成により、開発者は記憶に残るキャラクターと没入感のあるオーディオ体験を実現可能
グローバルスケールの対応
- 70以上の言語で高忠実度の音声と精密な制御を提供
- 主要市場向けに高度なスタイル、速度、抑揚の制御を通じてローカライズされた音声体験を構築可能
- 初期テスターである開発者と企業は、3.1 Flash TTSの印象的な制御性と表現力を高く評価
- オーディオタグが新たなレベルの創作精度を提供し、単純なテキストを高忠実度のボーカルパフォーマンスへ変換するというフィードバック
SynthIDウォーターマーキング
- Gemini 3.1 Flash TTSが生成するすべての音声にSynthIDウォーターマークを適用
- 知覚できないウォーターマークが音声出力に直接埋め込まれ、AI生成コンテンツの信頼できる検出が可能
- 誤情報防止のための安全装置として機能し、モデルカードを通じて安全性と責任に関する詳細情報を提供
まだコメントはありません。