1 ポイント 投稿者 GN⁺ 2024-09-07 | 1件のコメント | WhatsAppで共有

Infinity AIの紹介

  • Infinity AIは、人間中心の動画モデルを訓練している企業
  • 音声入力で駆動する動画拡散トランスフォーマーを訓練した初の事例
  • このモデルは、実際に話す表現力豊かでリアルなキャラクターを生成できる

使い方

  • Infinity AIのツールを使ってスクリプトを入力すると、キャラクターが話す動画を生成できる
  • 例:
    • 「モナリザが『何を見て笑ってるの?』と言う動画」
    • 「赤い帽子をかぶった3Dピクサー風のノームがアメリカ独立宣言を朗読する動画」
    • 「イーロン・マスクがフランク・シナトラの『Fly Me To The Moon』を歌う動画」

既存AIツールの問題点

  • 従来の生成AI動画モデルでは、キャラクターが話すことができなかった
  • 従来のトーキングアバター企業は、既存の動画にリップシンクを追加する方式だった
  • その結果、音声と一致しない表情やジェスチャーが生じ、「不気味の谷」現象が現れていた

V1モデルの限界

  • リップシンクのアプローチには、ジェスチャーの不一致以外にも複数の限界があった
  • 俳優ライブラリが限られており、想像上のキャラクターをアニメーション化できないという問題があった

V2モデルの改善点

  • 単一画像、音声、その他の条件信号を入力として受け取り、動画を出力するエンドツーエンドの動画拡散トランスフォーマーモデルを訓練
  • 人間の動きや感情の複雑さと繊細さを捉えるうえで最適なアプローチだと考えている
  • モデルが遅いという欠点がある

モデルの長所

  • 複数の言語を処理できる
  • 物理法則を一部学習している(例: イヤリングが自然に揺れる)
  • さまざまな種類の画像をアニメーション化できる(絵画、彫刻など)
  • 歌にも対応できる

モデルの短所

  • 動物の画像は処理できない(人型画像のみ可能)
  • しばしば手をフレーム内に挿入してしまう(かなり煩わしく気が散る)
  • 漫画に対して堅牢ではない
  • 人物の同一性を歪めることがある(著名人で顕著)

モデルを試す

GN⁺のまとめ

  • Infinity AIの動画モデルは、音声入力を通じてリアルなキャラクターを生成できる初の事例
  • 従来のAIツールの限界を克服し、エンドツーエンドの動画拡散トランスフォーマーモデルによって人間の動きや感情をより的確に捉える
  • 複数言語や多様な画像タイプを扱えるという利点がある一方で、動物画像を処理できないことや手をフレーム内に挿入してしまうなどの欠点もある
  • 類似機能を持つ他のプロジェクトとしてはRunwayとLumaがある

1件のコメント

 
GN⁺ 2024-09-07
Hacker Newsのコメント
  • Hedraの出来の悪い模倣作に見え、現時点ではかなり後れを取っている
  • テキストから画像を生成して宇宙海兵隊員を作ったが、追加修正なしでも驚くほどの出来になった
  • 「Gnome」の顔オプションを見た瞬間、何をすべきかわかった
  • モデルはDuke Nukemがあまり好きではないようだ
  • 彼の拳銃を切り取ったら、状況はさらに悪化した
  • 別の画像では少し良い結果が出ている
  • この画像がいちばん気に入っている
  • 誰かがこの作業をやらなければならなかった
  • Alibaba ResearchのEmoのような先行研究はあるが、このデモは実際に人々が試せるので印象的だ
  • ミームを現実にしようとしたが、元画像が難しかった
    • 音声に少し言語面の問題がある
  • アンキャニーバレー方向に振り切ろうとしたが、かなり難しかった
  • ときどきフレーム内に手を挿入してくる
    • イタリア語のデータで学習しすぎたようだ
  • このツールは非常に驚異的だ
    • 短い音声(3〜5秒)では、画像が完全に静止したままになる小さな問題がある