5 ポイント 投稿者 xguru 2026-04-29 | 1件のコメント | WhatsAppで共有
  • Realtime API上に構築されたReact/ブラウザ向けの音声制御コンポーネント
  • 音声でフォーム入力からさまざまな動作を指示し、それに反応するウィジェットを実装可能
  • アシスタントがアプリで許可された動作のみ実行するよう制限するtool-constrained UIパターンを提供
  • セッション接続・音声処理・ツール実行・トランスクリプト組み立てを1つのコントローラーが一括管理するため、開発者がWebRTCやRealtimeプロトコルを直接扱う必要がない
  • 既存アプリに組み込む際も、アプリが**状態の唯一のソース(source of truth)**を維持し、音声レイヤーは限定されたアプリハンドラーを呼び出すだけの構成
  • 汎用オーケストレーションフレームワークではなく、ブラウザUIフローに特化した opinionated パッケージであり、非Reactランタイムやエージェントオーケストレーションが必要なら Raw Realtime または openai-agents-js の利用を推奨
  • 既存アプリ統合時に、/session エンドポイントのプロキシ → voice adapter ラッパーの作成 → ツール登録 → コントローラーのホイスティング → ウィジェットのマウントまでの9段階ガイドを提供
  • コントローラーはデフォルトで**server_vad**を使用し、tool-only セッションでは interruptResponse: false により進行中のツール呼び出しが新しい音声でキャンセルされないよう設定
  • デモアプリではテーマ切り替え、マルチステップフォーム、共有状態のチェスフロー、wake-word 実験など多様な統合シナリオを確認可能
  • Apache-2.0 ライセンス

1件のコメント

 
xguru 2026-04-29

使用動画は https://x.com/OpenAIDevs/status/2048871260512473385 で見られます。
かなり高速で、うまく動いていますね。APIコストが重いので用途は限定的になりそうですが…。
こういうものがローカルモデルで実装できるようになれば、かなり使えそうです。