OpenAI Realtime APIベースの音声制御Reactコンポーネント

xguru · 2026-04-29T09:31:01+09:00

Realtime API上に構築されたReact/ブラウザ向けの音声制御コンポーネント音声でフォーム入力からさまざまな動作を指示し、それに反応するウィジェットを実装可能アシスタントがアプリで許可された動作のみ実行するよう制限するtool-constrained UIパターンを提供セッション接続・音声処理・ツール実行・トランスクリプト組み立てを1つのコントローラーが一括管理するため、開発者がWebRTCやRealtimeプロトコルを直接扱う必要がない既存アプリに組み込む際も、アプリが**状態の唯一のソース(source of truth)**を維持し、音声レイヤーは限定されたアプリハンドラーを呼び出すだけの構成汎用オーケストレーションフレームワークではなく、ブラウザUIフローに特化した opinionated パッケージであり、非Reactランタイムやエージェントオーケストレーションが必要なら Raw Realtime または openai-agents-js の利用を推奨既存アプリ統合時に、/session エンドポイントのプロキシ → voice adapter ラッパーの作成 → ツール登録 → コントローラーのホイスティング → ウィジェットのマウントまでの9段階ガイドを提供コントローラーはデフォルトで**server_vad**を使用し、tool-only セッションでは interruptResponse: false により進行中のツール呼び出しが新しい音声でキャンセルされないよう設定デモアプリではテーマ切り替え、マルチステップフォーム、共有状態のチェスフロー、wake-word 実験など多様な統合シナリオを確認可能 Apache-2.0 ライセンス

(github.com/openai)

5 ポイント投稿者 xguru 2026-04-29 | 1件のコメント | WhatsAppで共有

Realtime API上に構築されたReact/ブラウザ向けの音声制御コンポーネント
音声でフォーム入力からさまざまな動作を指示し、それに反応するウィジェットを実装可能
アシスタントがアプリで許可された動作のみ実行するよう制限するtool-constrained UIパターンを提供
セッション接続・音声処理・ツール実行・トランスクリプト組み立てを1つのコントローラーが一括管理するため、開発者がWebRTCやRealtimeプロトコルを直接扱う必要がない
既存アプリに組み込む際も、アプリが**状態の唯一のソース(source of truth)**を維持し、音声レイヤーは限定されたアプリハンドラーを呼び出すだけの構成
汎用オーケストレーションフレームワークではなく、ブラウザUIフローに特化した opinionated パッケージであり、非Reactランタイムやエージェントオーケストレーションが必要なら Raw Realtime または openai-agents-js の利用を推奨
既存アプリ統合時に、/session エンドポイントのプロキシ → voice adapter ラッパーの作成 → ツール登録 → コントローラーのホイスティング → ウィジェットのマウントまでの9段階ガイドを提供
コントローラーはデフォルトで**server_vad**を使用し、tool-only セッションでは interruptResponse: false により進行中のツール呼び出しが新しい音声でキャンセルされないよう設定
デモアプリではテーマ切り替え、マルチステップフォーム、共有状態のチェスフロー、wake-word 実験など多様な統合シナリオを確認可能
Apache-2.0 ライセンス

1件のコメント

xguru 2026-04-29

使用動画は https://x.com/OpenAIDevs/status/2048871260512473385 で見られます。
かなり高速で、うまく動いていますね。APIコストが重いので用途は限定的になりそうですが…。
こういうものがローカルモデルで実装できるようになれば、かなり使えそうです。

OpenAI Realtime APIベースの音声制御Reactコンポーネント

関連記事

1件のコメント