OpenAI Realtime APIベースの音声制御Reactコンポーネント
(github.com/openai)- Realtime API上に構築されたReact/ブラウザ向け音声制御コンポーネント
- 音声でフォーム入力からさまざまな動作を指示でき、それに反応するウィジェットを実装可能
- アシスタントがアプリが許可した動作のみ実行するよう制限するtool-constrained UIパターンを提供
- セッション接続・音声処理・ツール実行・トランスクリプト組み立てを1つのコントローラーが一括管理するため、開発者がWebRTCやRealtimeプロトコルを直接扱う必要がない
- 既存アプリに組み込む際は、アプリが**状態の唯一のソース(source of truth)**を維持し、音声レイヤーは制限されたアプリハンドラーを呼び出すだけの構成
- 汎用オーケストレーションフレームワークではなく、ブラウザUIフローに特化したopinionatedパッケージであり、非Reactランタイムやエージェントオーケストレーションが必要な場合はRaw Realtimeまたは
openai-agents-jsの利用を推奨 - 既存アプリ統合時に、
/sessionエンドポイントのプロキシ → voice adapterラッパー作成 → ツール登録 → コントローラーのホイスティング → ウィジェットのマウントまでの9段階ガイドを提供 - コントローラーはデフォルトで**
server_vad**を使用し、tool-onlyセッションではinterruptResponse: falseにより進行中のツール呼び出しが新しい音声でキャンセルされないよう設定 - デモアプリでは、テーマ切り替え、マルチステップフォーム、共有状態チェスフロー、wake-word実験など、さまざまな統合シナリオを確認可能
- Apache-2.0ライセンス
まだコメントはありません。