Show HN: Infinity – 話せるリアルなAIキャラクター

(news.ycombinator.com)

1 ポイント投稿者 GN⁺ 2024-09-07 | 1件のコメント | WhatsAppで共有

Infinity AIは人間中心の基盤動画モデルを学習し、音声入力だけで話すキャラクター動画を生成しようとしている
制作者は、キャラクターが話すスクリプトを入れて動画を作れるようにし、将来的には行動まで指定できる形を目指している
V2は単一画像・音声・条件信号を受け取り動画を作るエンドツーエンドモデルで、従来のリップシンク方式における表情・ジェスチャーの不一致を減らそうとするアプローチ
これまでに約11 GPU年と約50万ドルが投入されたが、rectified flowと3D VAE embedding layerを使っても生成速度は依然として遅い
多言語・物理的な動き・絵画や彫刻画像・歌には強みを見せる一方、動物・カートゥーン・手の挿入・有名人のアイデンティティ歪曲といった失敗モードが残っている

Infinity V2が作る話すキャラクター動画

Infinity AIは、人間に焦点を当てた独自の基盤動画モデルを学習した
チームが知る限りでは、音声入力で駆動される動画拡散トランスフォーマーを学習した初の事例に近い
このアプローチは、表現力があり現実的に見えるキャラクターが実際に話す動画を作ることに焦点を当てている
サンプル動画はV2 launch blogで見られる
モデルはInfinity Studioで直接試せる
HNのコメントにキャラクター説明を残すと、チームが動画を生成してリンクで返信するとのこと
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

RunwayやLumaのような生成AI動画モデルは、キャラクターに話させる用途には向いていない
HeyGenやSynthesiaのようなtalking avatarサービスは、事前録画された動画にリップシンクを適用する方式
- 音声と表情・ジェスチャーがずれることがある
- この不一致が、原因を特定しにくい不気味の谷のような感覚につながることがある
Infinity V1もリップシンクのアプローチを使っていた
- ジェスチャーの不一致が残っていた
- 既存の映像素材で俳優ごとにモデルをfine-tuneする必要があり、俳優ライブラリが限られていた
- 想像上のキャラクターをアニメーション化するのが難しかった
V2は、単一画像、音声、その他の条件信号を入力として受け取り、動画を出力するエンドツーエンドの動画拡散トランスフォーマーへ移行した
- 人間の動きと感情が持つ複雑さやニュアンスを捉えるには、このアプローチが最も適していると見ている
- 欠点は生成速度が遅いこと
- rectified flowで2〜4倍、3D VAE embedding layerで2〜5倍の高速化を得たが、それでも遅い
これまでに約11 GPU年と約50万ドルを学習に投入しており、モデル学習は継続中

強み
- 複数の言語を処理できる
- イヤリングが自然に揺れ、反対側の耳の対になるイヤリングも推論するなど、一部の物理を学習している
- 学習していない絵画、彫刻のような画像タイプもアニメーション化できる
- 歌を処理できる
限界
- 動物は処理できず、humanoid画像にのみ対応する
- フレーム内に手を頻繁に挿入し、邪魔になることがある
- カートゥーンにはrobustではない
- 人物のアイデンティティを歪めることがあり、有名人では特に目立つ

GN⁺ 2024-09-07