- Agentフレームワークを使うことで、リアルタイムに見て、聞いて、話せるAIベースのサーバープログラムを構築可能
- ユーザーのデバイスとLiveKitセッションを通じて接続され、テキスト、音声、画像、動画のストリーミングを処理し、AIモデルが生成した結果をユーザーにストリーミングする
- OpenAIと協業してMultimodalAgent APIを提供
- OpenAIのRealtime APIを完全にラップし、Raw Wireプロトコルを抽象化して、GPT-4oとデバイス間の超低遅延WebRTC転送を提供
- ChatGPTアプリのAdvanced Voice機能で使われている技術スタック
- 提供機能
- 著名なLLM、音声認識およびテキスト読み上げサービス、RAGデータベース向けのプラグイン
- 自動ターン検出、中断処理、関数呼び出し、音声認識機能を備えた音声エージェントまたはアシスタントを構築するための高水準の抽象化を提供
- LiveKitのテレフォニースタックと互換性があり、オペレーターが電話の発信や着信対応を行える
- エッジベースのディスパッチ、監視、透過的なフェイルオーバーによりエージェントプールを管理する統合ロードバランシングシステム
- エージェントの実行は、ローカルホスト、自前ホスティング、LiveKit Cloud環境のいずれでも同一に行われる
1件のコメント
LiveKit - リアルタイムコミュニケーションプラットフォームのオープンソース
LiveKit は私が2021年に一度共有したことがあるのですが、Agents 機能へと拡張されて ChatGPT にも使われているようですね。
もともとは10〜1000人規模のリアルタイム音声・ビデオ会議機能のための製品です。
Clubhouse が使っていた Agora のオープンソース代替になり得るため、当時かなり注目を集めました。
そして調べてみると、Agora も Conversational AI SDK という名前でまったく同じ機能を提供しているんですね。
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/