2 ポイント 投稿者 GN⁺ 1 시간 전 | まだコメントはありません。 | WhatsAppで共有
  • リアルタイム音声APIに、推論・翻訳・文字起こし機能を備えた3つの新しいオーディオモデルを投入し、開発者がより自然で知的な音声アプリケーションを構築できるようになった
  • GPT-Realtime-2は、GPT-5級の推論能力を搭載した初の音声モデルで、ツール呼び出しや中断処理を行いながら自然に会話を継続する
  • GPT-Realtime-Translateは、70以上の入力言語を13の出力言語へリアルタイム翻訳するライブ翻訳モデル
  • GPT-Realtime-Whisperは、発話と同時にテキスト化するストリーミング音声文字起こしモデルで、キャプション・議事録・顧客サポートなどに活用可能
  • 音声が単なる呼び出し-応答を超え、推論・翻訳・文字起こし・ツール実行を同時に担うインターフェースへ進化する転換点

3つの新しいリアルタイムオーディオモデルの概要

  • 開発者が、より自然で、知的に応答し、リアルタイムでアクションを実行する音声体験を構築できるよう、3つのモデルをAPIに導入
  • GPT-Realtime-2: GPT-5級の推論を備えた初の音声モデルで、難しいリクエストを処理し、会話を自然に導く
  • GPT-Realtime-Translate: 70以上の入力言語から13の出力言語へ、話者の速度に合わせてリアルタイム音声翻訳を実行
  • GPT-Realtime-Whisper: 話者が話している最中にライブストリーミング音声テキスト変換を提供

音声がソフトウェアインターフェースになる流れ

  • 音声は、運転中の支援要請、空港での旅程変更、希望言語でのサポート、タイピングなしでの作業進行など、最も自然なソフトウェア利用方法の1つとして台頭
  • 有用な音声製品には、素早いターンテイキングや自然な音声以上のものが求められる。意味理解、コンテキスト追跡、依頼変更時の復旧、会話中のツール使用、適切なトーンでの応答などが必要
  • 今回公開されたモデルは、リアルタイム音声を単純な呼び出し-応答から、聞き、推論し、翻訳し、文字起こしし、行動する音声インターフェースへと転換する

音声AIの3つの新興パターン

  • Voice-to-Action: ユーザーが要件を話すと、システムが推論し、ツールを使って作業を完了
    • Zillowの事例: 「私のBuyAbility範囲内の家を探して、混雑した道路は避けて、土曜日の見学を予約して」といった依頼を聞き、推論して実行するアシスタントを構築中
  • Systems-to-Voice: ソフトウェアがコンテキストをリアルタイムの音声案内へ変換
    • 旅行アプリの事例: 「到着便は遅延していますが乗り継ぎは可能です。新しいゲートを見つけ、ターミナルまでの最短ルートを案内し、荷物は通常どおり移送予定です」のような先回りした音声案内を提供
  • Voice-to-Voice: AIが言語、タスク、変化するコンテキストをまたいでリアルタイムの会話をつなぐ
    • Deutsche Telekomの事例: 顧客が使いやすい言語で話すと、モデルがリアルタイムで翻訳する音声サポート体験を構築中
  • これらのパターンは組み合わせも可能で、Pricelineは、フライト・ホテル検索、予約変更、TSA待ち時間の更新、現地会話の翻訳まで、音声で旅行全体を管理する未来を推進中

GPT-Realtime-2: 推論と行動を行うリアルタイム音声モデル

  • リアルタイム音声インタラクション向けに最適化され、推論しながらツール呼び出し、修正・中断処理、状況に応じた応答を同時に実行
  • Preambles: 「確認します」「少々お待ちください」といった短いフレーズで、エージェントがリクエストを処理中であることをユーザーに知らせる
  • 並列ツール呼び出しとツール透明性: 複数のツールを同時に呼び出しつつ、「カレンダーを確認中です」「今検索しています」といった表現で応答性を維持
  • 強化された復旧動作: 「今は処理が難しいです」といった表現で静かに失敗したり会話を打ち切ったりするのではなく、自然に復旧
  • 拡張されたコンテキストウィンドウ: 32Kから128Kへ拡大し、より長いセッションと複雑なワークフローに対応
  • 強化されたドメイン理解: 専門用語、固有名詞、医療用語など、本番環境で重要な語彙をより適切に保持
  • 制御可能なトーンと話し方: 問題解決時は落ち着いて、ユーザーが不満なときは共感的に、成功確認時は明るく、などトーン調整が可能
  • 調整可能な推論努力: minimal, low, medium, high, xhigh の5段階を提供し、デフォルトは low。単純なやり取りでは低遅延を、複雑な依頼ではより深い推論を実現してバランスを取る

GPT-Realtime-2の性能ベンチマーク

  • GPT-Realtime-2 (high) は Big Bench Audio で、オーディオインテリジェンス指標においてGPT-Realtime-1.5比 15.2%高いスコア を記録
  • GPT-Realtime-2 (xhigh) は Audio MultiChallenge で、指示追従指標においてGPT-Realtime-1.5比 13.8%高いスコア を記録し、推論・コンテキスト管理・制御能力が向上
  • ZillowのJosh Weisberg SVPのコメント: 最も難しい敵対的ベンチマークにおいて、プロンプト最適化後に通話成功率が26ポイント向上(95% vs. 69%)。Fair Housing規制準拠でもより堅牢で、エージェント能力とガードレール強度の組み合わせがZillowの本番音声に適している

GPT-Realtime-Translate: リアルタイム多言語音声翻訳

  • 各参加者が好みの言語で話し、リアルタイム翻訳された会話を聞き、リアルタイム文字起こしを読める多言語音声体験を構築可能
  • 70以上の入力言語、13の出力言語をサポートし、顧客サポート、国境をまたぐ営業、教育、イベント、メディア、グローバルクリエイタープラットフォームで活用可能
  • 話者の速度に合わせつつ意味を保つ必要があり、自然な発話、コンテキスト切り替え、地域ごとの発音、ドメイン特化言語にも対応する必要がある
  • Deutsche Telekomが多言語音声インタラクションでテスト中で、低遅延と強化された流暢さによりクロスランゲージ会話がより自然になっている
  • Vimeoの事例: GPT-Realtime-Translateが製品トレーニング動画の再生中にリアルタイム翻訳を行い、グローバル顧客が別制作版なしで希望言語で更新情報を聞ける
  • BolnaAIのPrateek Sachan CTOのコメント: ヒンディー語、タミル語、テルグ語の評価で、単語誤り率(WER)が他モデル比で12.5%低く、フォールバック率の低下、高いタスク完了率、自然な会話を維持する遅延を達成

GPT-Realtime-Whisper: 低遅延ストリーミング文字起こし

  • 低遅延の音声テキスト変換のための新しいストリーミング文字起こしモデルで、話しながら同時に音声を文字起こしする
  • リアルタイムキャプション、会話中に生成される会議メモ、継続的なユーザー理解が必要な音声エージェント、顧客サポート・ヘルスケア・営業・採用など高頻度の音声インタラクションにおける迅速な後続ワークフローに活用可能
  • 会議、教室、放送、イベント向けのキャプション生成、会話進行中のメモ・要約生成など、ビジネスワークフローでリアルタイム音声データを即時活用

安全性とポリシー

  • Realtime API に多層的な安全装置と緩和策を適用し、不正利用を防止
  • セッションに対する**アクティブ分類器(active classifiers)**が稼働しており、有害コンテンツガイドライン違反を検知した場合は会話を中断できる
  • 開発者は Agents SDK を使って独自の安全ガードレールを追加可能
  • 使用ポリシーに基づき、スパム、欺瞞など有害目的での出力の再利用・配布は禁止
  • 最終ユーザーには、AIと対話中であることを明確にする必要がある(文脈上明白な場合を除く)
  • EUデータレジデンシーを完全サポートし、エンタープライズ向けプライバシー契約を適用

価格と提供状況

  • GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper はいずれも Realtime API で利用可能
  • GPT-Realtime-2: オーディオ入力トークン100万件あたり $32(キャッシュ済み入力トークンは $0.40)、オーディオ出力トークン100万件あたり $64
  • GPT-Realtime-Translate: 1分あたり $0.034
  • GPT-Realtime-Whisper: 1分あたり $0.017
  • Playgroundで新しいリアルタイム音声モデルを試せるほか、Codexを通じて既存アプリにGPT-Realtime-2を追加したり、新規プロジェクトを始めたりできる

まだコメントはありません。

まだコメントはありません。