OmniHuman - 写真1枚から実写のような映像を生成するモデル
(omnihuman-lab.github.io)- ByteDanceの研究チームが、「単一の写真を使って自然に話し、歌い、動く人物の映像を生成」するAIシステムを開発
- 従来のAIモデルが顔や上半身しかアニメーション化できなかった限界を超え、「全身の動きを反映した映像」を生成可能
- 「音声、映像、または両方を組み合わせた入力を活用」して人物の動きをリアルにアニメーション化する初の統合モデル
- 主な特徴
- 単一画像ベースの動画生成
- 人物の写真1枚だけで、全身の動きを反映した自然な映像を生成可能
- マルチモーダル入力に対応
- オーディオ、ビデオ、または両方を組み合わせた入力方式に対応
- 従来モデルと比べてジェスチャー表現力が大幅に向上
- どんなアスペクト比の画像でも処理可能
- 縦長の人物写真、半身写真、全身写真など、さまざまな画像比率に対応
- 多様なスタイルと入力データに対応
- 漫画、人工キャラクター、動物、複雑なポーズなど、さまざまなスタイルを反映可能
- 音楽スタイルに応じた自然な身振り表現
- 高音、低音、さまざまな音楽ジャンルに合わせた動きを生成可能
- ビデオベースの動作模倣が可能
- 特定人物の動作をそのまま再現するvideo drivingに対応
- 単一画像ベースの動画生成
2件のコメント
わあ、これで中国が戦争をしたら、捏造されたプロパガンダ映像が一つや二つでは済まなそうですね
わあ……これはすごくいいですね?