2 ポイント 投稿者 GN⁺ 2024-10-02 | 1件のコメント | WhatsAppで共有
  • Tavusの共同創業者であるHassaanとQuinnが、AI研究企業および動画API開発プラットフォームを紹介
  • 2020年から「デジタルツイン」または「アバター」のためのAIビデオモデルを開発してきた
  • 人間との現実的な対話のためのAIビデオインターフェース構築における課題を共有

課題

  • 対話型ビデオが効果的であるためには、非常に低いレイテンシと会話認識が必要
  • 友人同士のテンポの速い会話では発話の間隔は約250msだが、複雑な話題や初対面の相手との会話では追加の「考える」時間が必要
  • 1000ms以下のレイテンシは会話に現実感をもたらす

アーキテクチャの決定

  • レイテンシ、スケーラビリティ、コストのバランスを取ることが大きな課題だった
  • レイテンシを削減するために、最初から新たに構築する必要があった
  • 数千件の会話を同時にサポートしながら、計算コストも削減しなければならなかった

初期開発

  • 初期開発段階では、各会話を個別のH100で実行する必要があった
  • これはスケーラブルではなく、コストも高かった

Phoenix-2モデルの開発

  • 複数の改善を含む新しいモデルPhoenix-2を開発
  • NeRFベースのバックボーンからGaussian Splattingへ移行し、リアルタイムを上回る速度でフレームを生成できるようになった
  • メモリとGPUコアの使用を最適化し、低スペックなハードウェアでも実行可能にした
  • ストリーミング vs バッチング、プロセス並列化など、時間とコストを削減する別の手法も用いた

最適化

  • 各コンポーネント(ビジョン、ASR、LLM、TTS、ビデオ生成)を超高速に最適化する必要があった
  • 最大の問題はLLMだった
  • tokens per second (t/s) が速くても、time to first token (ttft) が遅いと問題になる
  • ほとんどのプロバイダーは遅すぎた

発話終了の検出

  • 発話終了の検出は難しかった
  • 基本的なソリューションは、無音の後の時間を使って発話終了を「判定」するが、これはレイテンシを追加してしまう
  • AIエージェントがユーザーの発話を遮らないように適切なタイミングを取ることが重要だった

結果

  • これらの最適化により、レイテンシを3〜5秒から1秒未満(最小600ms)まで削減できた
  • 低スペックなハードウェアでも1秒未満のレイテンシを達成
  • Delphiのような複数の顧客がおり、デジタルツインとの会話は数分から最大4時間まで続く

GN⁺のまとめ

  • TavusのAIビデオモデルは、人間との自然な会話を目指している
  • レイテンシを削減するために、アーキテクチャを新たに構築して最適化した
  • Phoenix-2モデルは、低スペックなハードウェアでもリアルタイムを上回る速度でフレームを生成できる
  • この技術は、人間とコンピュータのインターフェースにおける重要な要素になる可能性がある
  • 類似機能を持つ他のプロジェクトとして、GoogleのDuplexがある

1件のコメント

 
GN⁺ 2024-10-02
Hacker Newsのコメント
  • ウェブサイトとダイヤルアップ音が気に入った。カウボーイハットも良い
  • 2つのアバターのチャット体験はあまり良くなく、頻繁に途切れて混乱した
  • 画像認識は良く、アバターの反応が遅いときにも物を認識できていた
  • 具体的な難しさを共有してくれてありがたい。今後さらに良くなるはず
  • Hassan版のほうが良かった。背景を認識し、壁にある模型について話していた
    • LEGOセットについて会話していた
  • トイレでカメラがタオルを映していたところ、「居心地のいいトイレですね」と言っていた
  • 実際の人と会話している感じがして、コードのようには扱えなかった
    • 人と会話するときの意識的な努力について考えさせられる
    • Google検索では最小限のキーワードしか使わない
    • この技術が人々に似たような行動を訓練してしまうのではないかと心配
  • 低遅延・マルチモーダルAIに興味があるなら、Tavusが10月19〜20日にSFでハッカソンを後援する
    • リモートトラックもある
  • デモ機能: 9.5/10
    • 不気味さ: 10/10
  • GPUデプロイには詳しくないが、コストが高く、割り当ても難しい
    • クラウドGPUリソースを大規模に処理する方法が気になる
    • WebSocket接続ごとにGPUを割り当てるのか、そうならかなり高コストになりそう
  • 技術的には非常に印象的で、Carterアバターは緊張しているように見える
    • 口や歯に違和感はあるが、反応は速い
    • Zoomでもっと大きな遅延を見たことがある
    • コールセンターの未来だと思う。アバターの表現力が高まればCSATも上がるはず
  • 技術的に驚くべき仕事で、1秒未満の応答時間は非常に印象的
    • FaceTimeで偽の人間と会話できるのは恐ろしい
    • 社会的影響についてどう考えているのか気になる
    • 今日では人とのつながりの不足により、孤独の危機がある
  • ChatGPTは会話の切れ目を検知するのに問題がある
    • いつも話を遮ってくる