- Tavusの共同創業者であるHassaanとQuinnが、AI研究企業および動画API開発プラットフォームを紹介
- 2020年から「デジタルツイン」または「アバター」のためのAIビデオモデルを開発してきた
- 人間との現実的な対話のためのAIビデオインターフェース構築における課題を共有
課題
- 対話型ビデオが効果的であるためには、非常に低いレイテンシと会話認識が必要
- 友人同士のテンポの速い会話では発話の間隔は約250msだが、複雑な話題や初対面の相手との会話では追加の「考える」時間が必要
- 1000ms以下のレイテンシは会話に現実感をもたらす
アーキテクチャの決定
- レイテンシ、スケーラビリティ、コストのバランスを取ることが大きな課題だった
- レイテンシを削減するために、最初から新たに構築する必要があった
- 数千件の会話を同時にサポートしながら、計算コストも削減しなければならなかった
初期開発
- 初期開発段階では、各会話を個別のH100で実行する必要があった
- これはスケーラブルではなく、コストも高かった
Phoenix-2モデルの開発
- 複数の改善を含む新しいモデルPhoenix-2を開発
- NeRFベースのバックボーンからGaussian Splattingへ移行し、リアルタイムを上回る速度でフレームを生成できるようになった
- メモリとGPUコアの使用を最適化し、低スペックなハードウェアでも実行可能にした
- ストリーミング vs バッチング、プロセス並列化など、時間とコストを削減する別の手法も用いた
最適化
- 各コンポーネント(ビジョン、ASR、LLM、TTS、ビデオ生成)を超高速に最適化する必要があった
- 最大の問題はLLMだった
- tokens per second (t/s) が速くても、time to first token (ttft) が遅いと問題になる
- ほとんどのプロバイダーは遅すぎた
発話終了の検出
- 発話終了の検出は難しかった
- 基本的なソリューションは、無音の後の時間を使って発話終了を「判定」するが、これはレイテンシを追加してしまう
- AIエージェントがユーザーの発話を遮らないように適切なタイミングを取ることが重要だった
結果
- これらの最適化により、レイテンシを3〜5秒から1秒未満(最小600ms)まで削減できた
- 低スペックなハードウェアでも1秒未満のレイテンシを達成
- Delphiのような複数の顧客がおり、デジタルツインとの会話は数分から最大4時間まで続く
GN⁺のまとめ
- TavusのAIビデオモデルは、人間との自然な会話を目指している
- レイテンシを削減するために、アーキテクチャを新たに構築して最適化した
- Phoenix-2モデルは、低スペックなハードウェアでもリアルタイムを上回る速度でフレームを生成できる
- この技術は、人間とコンピュータのインターフェースにおける重要な要素になる可能性がある
- 類似機能を持つ他のプロジェクトとして、GoogleのDuplexがある
1件のコメント
Hacker Newsのコメント