OpenAI Realtime APIベースの音声制御Reactコンポーネント
(github.com/openai)- Realtime API上に構築されたReact/ブラウザ向けの音声制御コンポーネント
- 音声でフォーム入力からさまざまな動作を指示し、それに反応するウィジェットを実装可能
- アシスタントがアプリで許可された動作のみ実行するよう制限するtool-constrained UIパターンを提供
- セッション接続・音声処理・ツール実行・トランスクリプト組み立てを1つのコントローラーが一括管理するため、開発者がWebRTCやRealtimeプロトコルを直接扱う必要がない
- 既存アプリに組み込む際も、アプリが**状態の唯一のソース(source of truth)**を維持し、音声レイヤーは限定されたアプリハンドラーを呼び出すだけの構成
- 汎用オーケストレーションフレームワークではなく、ブラウザUIフローに特化した opinionated パッケージであり、非Reactランタイムやエージェントオーケストレーションが必要なら Raw Realtime または
openai-agents-jsの利用を推奨 - 既存アプリ統合時に、
/sessionエンドポイントのプロキシ → voice adapter ラッパーの作成 → ツール登録 → コントローラーのホイスティング → ウィジェットのマウントまでの9段階ガイドを提供 - コントローラーはデフォルトで**
server_vad**を使用し、tool-only セッションではinterruptResponse: falseにより進行中のツール呼び出しが新しい音声でキャンセルされないよう設定 - デモアプリではテーマ切り替え、マルチステップフォーム、共有状態のチェスフロー、wake-word 実験など多様な統合シナリオを確認可能
- Apache-2.0 ライセンス
1件のコメント
使用動画は https://x.com/OpenAIDevs/status/2048871260512473385 で見られます。
かなり高速で、うまく動いていますね。APIコストが重いので用途は限定的になりそうですが…。
こういうものがローカルモデルで実装できるようになれば、かなり使えそうです。