Infinity AIの紹介
- Infinity AIは、人間中心の動画モデルを訓練している企業
- 音声入力で駆動する動画拡散トランスフォーマーを訓練した初の事例
- このモデルは、実際に話す表現力豊かでリアルなキャラクターを生成できる
使い方
- Infinity AIのツールを使ってスクリプトを入力すると、キャラクターが話す動画を生成できる
- 例:
- 「モナリザが『何を見て笑ってるの?』と言う動画」
- 「赤い帽子をかぶった3Dピクサー風のノームがアメリカ独立宣言を朗読する動画」
- 「イーロン・マスクがフランク・シナトラの『Fly Me To The Moon』を歌う動画」
既存AIツールの問題点
- 従来の生成AI動画モデルでは、キャラクターが話すことができなかった
- 従来のトーキングアバター企業は、既存の動画にリップシンクを追加する方式だった
- その結果、音声と一致しない表情やジェスチャーが生じ、「不気味の谷」現象が現れていた
V1モデルの限界
- リップシンクのアプローチには、ジェスチャーの不一致以外にも複数の限界があった
- 俳優ライブラリが限られており、想像上のキャラクターをアニメーション化できないという問題があった
V2モデルの改善点
- 単一画像、音声、その他の条件信号を入力として受け取り、動画を出力するエンドツーエンドの動画拡散トランスフォーマーモデルを訓練
- 人間の動きや感情の複雑さと繊細さを捉えるうえで最適なアプローチだと考えている
- モデルが遅いという欠点がある
モデルの長所
- 複数の言語を処理できる
- 物理法則を一部学習している(例: イヤリングが自然に揺れる)
- さまざまな種類の画像をアニメーション化できる(絵画、彫刻など)
- 歌にも対応できる
モデルの短所
- 動物の画像は処理できない(人型画像のみ可能)
- しばしば手をフレーム内に挿入してしまう(かなり煩わしく気が散る)
- 漫画に対して堅牢ではない
- 人物の同一性を歪めることがある(著名人で顕著)
モデルを試す
GN⁺のまとめ
- Infinity AIの動画モデルは、音声入力を通じてリアルなキャラクターを生成できる初の事例
- 従来のAIツールの限界を克服し、エンドツーエンドの動画拡散トランスフォーマーモデルによって人間の動きや感情をより的確に捉える
- 複数言語や多様な画像タイプを扱えるという利点がある一方で、動物画像を処理できないことや手をフレーム内に挿入してしまうなどの欠点もある
- 類似機能を持つ他のプロジェクトとしてはRunwayとLumaがある
1件のコメント
Hacker Newsのコメント