Show HN: レイテンシ1秒未満のリアルタイムAIビデオエージェント

(news.ycombinator.com)

2 ポイント投稿者 GN⁺ 2024-10-02 | 1件のコメント | WhatsAppで共有

Tavusは、人と自然に対話するAIビデオインターフェースを作るため、応答レイテンシを1秒未満に下げることに注力している
テンポの速い会話では発話の間隔が約250msしかないため、ビデオエージェントにも低レイテンシと会話コンテキスト認識の両方が必要になる
初期のPhoenix-1は会話ごとにH100を1台必要とし、コストとスケーラビリティに限界があったが、Phoenix-2はGaussian Splattingへの移行によって低スペックなハードウェアで70fps以上の生成を目指している
パイプライン全体ではvision、ASR、LLM、TTS、ビデオ生成をすべて削減・最適化し、LLMでは毎秒トークン数よりも最初のトークンまでの時間が体感上のボトルネックだった
無音時間だけで発話終了を判断すると割り込みや応答遅延が発生するため、発話終了検知と入力予測により3〜5秒の遅延を1秒未満、速ければ600msまで短縮した

Tavusが掲げた目標: 人間らしく感じられる応答速度

Tavusは2020年からデジタルツインまたはアバター向けのAIビデオモデルを開発してきたAI研究会社であり、ビデオAPI開発者プラットフォームでもある
デモとして、Hassaanのデジタルツインと会話できるhassaanraza.comや、「demo twin」Carterがいるtavus.ioを提供している
対話型ビデオはコンピュータとより自然に相互作用する手段になり得るが、そのためには低レイテンシと会話コンテキストを反映する認識が必要である
目標レイテンシは1秒未満
- 友人同士のテンポの速い会話では、発話の間隔は約250ms程度
- より複雑な話題や見知らぬ相手との会話では、追加の「考える」時間がある
- 1000ms未満であれば、会話はかなり現実的に感じられると考えている

レイテンシ・スケーラビリティ・コストを同時に満たした実装

アーキテクチャはレイテンシ、スケーラビリティ、コストを同時に満たす必要があり、そのため最初から低レイテンシシステムとして再設計した
映像モデルとハードウェアコスト
- 初期開発段階では、Phoenix-1モデルを30fpsより速く動かすには、すべてのコンポーネントとモデル重みをGPUメモリに載せる必要があり、会話ごとに専用のH100が必要だった
- この方式はスケールしにくく、コストも高かった
- Phoenix-2は推論速度を含む複数の改善を反映した新モデルである
  - NeRFベースのバックボーンからGaussian Splattingへ移行
  - 低スペックなハードウェアでリアルタイムを上回る70fps以上のフレーム生成を要件とした
  - GPUメモリとコア使用を最適化し、より低い仕様のハードウェアでも動作することに注力した
  - ストリーミングの活用や、バッチ処理の代わりに並列化する方式も時間とコストの削減に役立てた
LLMと発話終了検知
- 発話間レイテンシを1秒未満に抑えるため、vision、ASR、LLM、TTS、ビデオ生成の各要素を徹底的に最適化した
- 最大のボトルネックはLLMだった
  - 毎秒トークン数（tokens per second）が速いことよりも、**最初のトークンまでの時間（time-to-first token）**の方が実際の体感遅延にとって重要だった
  - Groqのようなサービスも毎秒トークン数は高いが最初のトークンまでの時間が遅く、要件に合わず、ほとんどの提供者が遅すぎた
- 次のボトルネックは、ユーザーが話し終えたかを検知する部分だった
  - 無音の後の時間を基準に停止を判断すると、追加の遅延が生じる
  - 基準を短くしすぎるとAIエージェントがユーザーの発話にかぶさり、長くしすぎると応答が遅れる
  - 会話シグナルに基づいて**発話終了（end-of-turn）**を正確に検知し、入力を予測して先に準備する専用モデルが必要だった
- こうした最適化により、3〜5秒だったレイテンシを1秒未満、速ければ600msまで短縮し、より低い仕様のハードウェアでも動作するようにした

デモとユースケース

TavusはDelphiのような顧客を抱えており、Delphiは専門コーチや専門家の複製プラットフォームとして、デジタルツインと数分から1時間、4時間に及ぶ会話を行うユーザーがいる
デモを見た後でAPIを試してみたいユーザーは、tavus.ioから無料で登録できる

1件のコメント

GN⁺ 2024-10-02

Hacker Newsのコメント

ウェブサイトとダイヤルアップ音が気に入った。カウボーイハットも良い
2つのアバターのチャット体験はあまり良くなく、頻繁に途切れて混乱した
画像認識は良く、アバターの反応が遅いときにも物を認識できていた
具体的な難しさを共有してくれてありがたい。今後さらに良くなるはず
Hassan版のほうが良かった。背景を認識し、壁にある模型について話していた
- LEGOセットについて会話していた
トイレでカメラがタオルを映していたところ、「居心地のいいトイレですね」と言っていた
実際の人と会話している感じがして、コードのようには扱えなかった
- 人と会話するときの意識的な努力について考えさせられる
- Google検索では最小限のキーワードしか使わない
- この技術が人々に似たような行動を訓練してしまうのではないかと心配
低遅延・マルチモーダルAIに興味があるなら、Tavusが10月19〜20日にSFでハッカソンを後援する
- リモートトラックもある
デモ機能: 9.5/10
- 不気味さ: 10/10
GPUデプロイには詳しくないが、コストが高く、割り当ても難しい
- クラウドGPUリソースを大規模に処理する方法が気になる
- WebSocket接続ごとにGPUを割り当てるのか、そうならかなり高コストになりそう
技術的には非常に印象的で、Carterアバターは緊張しているように見える
- 口や歯に違和感はあるが、反応は速い
- Zoomでもっと大きな遅延を見たことがある
- コールセンターの未来だと思う。アバターの表現力が高まればCSATも上がるはず
技術的に驚くべき仕事で、1秒未満の応答時間は非常に印象的
- FaceTimeで偽の人間と会話できるのは恐ろしい
- 社会的影響についてどう考えているのか気になる
- 今日では人とのつながりの不足により、孤独の危機がある
ChatGPTは会話の切れ目を検知するのに問題がある
- いつも話を遮ってくる

Show HN: レイテンシ1秒未満のリアルタイムAIビデオエージェント

Tavusが掲げた目標: 人間らしく感じられる応答速度

レイテンシ・スケーラビリティ・コストを同時に満たした実装

映像モデルとハードウェアコスト

LLMと発話終了検知

デモとユースケース

関連記事

1件のコメント

Hacker Newsのコメント