3 ポイント 投稿者 GN⁺ 14 일 전 | まだコメントはありません。 | WhatsAppで共有
  • Googleが新たに公開したテキスト読み上げモデルで、従来より向上した自然さと表現力を備え、開発者・企業・一般ユーザーのすべてに向けたAI音声アプリケーション構築を支援
  • 新たに導入されたオーディオタグ機能により、自然言語の命令をテキストに直接挿入して、音声スタイル、速度、伝え方を細かく制御可能
  • Artificial Analysis TTSリーダーボードでEloスコア1,211を記録し、高品質な音声生成と低コストの理想的な組み合わせと評価
  • 70以上の言語をサポートし、ネイティブなマルチスピーカー対話機能を内蔵
  • 生成されるすべての音声にSynthIDウォーターマークが適用され、AI生成コンテンツの信頼できる検出と誤情報防止が可能

提供開始と配信チャネル

  • Gemini 3.1 Flash TTSは最新のテキスト読み上げモデルで、強化された制御性、表現力、品質を提供
  • 現在、以下のチャネルを通じてプレビュー提供中:
    • 開発者向け: Gemini API および Google AI Studio
    • 企業向け: Vertex AI
    • Workspaceユーザー向け: Google Vids

向上した音声品質と制御性

  • 全体的な音声品質が改善され、現時点で最も自然で表現力のあるモデル
  • Artificial Analysis TTSリーダーボードで、数千件のブラインド方式による人間の嗜好評価に基づきElo 1,211を達成
  • Artificial AnalysisはGemini 3.1 Flash TTSを、高品質な音声生成と低コストの理想的な組み合わせとして「most attractive quadrant」に配置
  • ネイティブなマルチスピーカー対話、70以上の言語対応、自然言語ベースの細かな創作制御機能によって差別化

オーディオタグによる表現力の強化

  • 新しいオーディオタグ機能の導入により、音声スタイル、速度、伝え方を直感的に制御可能
  • テキスト入力に自然言語の命令を直接挿入して、AI音声出力を細かく調整
  • 企業はVertex AI内でオーディオタグを活用し、次世代エンタープライズアプリケーションを構築可能
  • Google AI Studioでは、開発者を「director's chair」に座らせる構成可能なコントロールを提供:
    • Scene direction: 環境を定義し、具体的なセリフ指示を設定することで、キャラクターが複数ターンにわたって自然に反応するためのワールドビルディングコンテキストを提供
    • Speaker-level specificity: 固有のAudio Profileでキャラクターをキャスティングし、Director's Notesで速度・トーン・抑揚を調整し、インラインタグによって文中でも表現を切り替え可能
    • Seamless export: 完成したパラメータをGemini APIコードとしてエクスポートでき、さまざまなプロジェクトやプラットフォームで一貫した音声を維持可能
  • こうした構成により、開発者は記憶に残るキャラクターと没入感のあるオーディオ体験を実現可能

グローバルスケールの対応

  • 70以上の言語で高忠実度の音声と精密な制御を提供
  • 主要市場向けに高度なスタイル、速度、抑揚の制御を通じてローカライズされた音声体験を構築可能
  • 初期テスターである開発者と企業は、3.1 Flash TTSの印象的な制御性と表現力を高く評価
    • オーディオタグが新たなレベルの創作精度を提供し、単純なテキストを高忠実度のボーカルパフォーマンスへ変換するというフィードバック

SynthIDウォーターマーキング

  • Gemini 3.1 Flash TTSが生成するすべての音声にSynthIDウォーターマークを適用
  • 知覚できないウォーターマークが音声出力に直接埋め込まれ、AI生成コンテンツの信頼できる検出が可能
  • 誤情報防止のための安全装置として機能し、モデルカードを通じて安全性と責任に関する詳細情報を提供

まだコメントはありません。

まだコメントはありません。