OmniHuman - 写真1枚から実写のような映像を生成するモデル

xguru · 2025-02-13T10:28:01+09:00

ByteDanceの研究チームが、「単一の写真を使って自然に話し、歌い、動く人物の映像を生成」するAIシステムを開発従来のAIモデルが顔や上半身しかアニメーション化できなかった限界を超え、「全身の動きを反映した映像」を生成可能「音声、映像、または両方を組み合わせた入力を活用」して人物の動きをリアルにアニメーション化する初の統合モデル主な特徴単一画像ベースの動画生成人物の写真1枚だけで、全身の動きを反映した自然な映像を生成可能マルチモーダル入力に対応オーディオ、ビデオ、または両方を組み合わせた入力方式に対応従来モデルと比べてジェスチャー表現力が大幅に向上どんなアスペクト比の画像でも処理可能縦長の人物写真、半身写真、全身写真など、さまざまな画像比率に対応多様なスタイルと入力データに対応漫画、人工キャラクター、動物、複雑なポーズなど、さまざまなスタイルを反映可能音楽スタイルに応じた自然な身振り表現高音、低音、さまざまな音楽ジャンルに合わせた動きを生成可能ビデオベースの動作模倣が可能特定人物の動作をそのまま再現するvideo drivingに対応

(omnihuman-lab.github.io)

20 ポイント投稿者 xguru 2025-02-13 | 2件のコメント | WhatsAppで共有

ByteDanceの研究チームが、「単一の写真を使って自然に話し、歌い、動く人物の映像を生成」するAIシステムを開発
従来のAIモデルが顔や上半身しかアニメーション化できなかった限界を超え、「全身の動きを反映した映像」を生成可能
「音声、映像、または両方を組み合わせた入力を活用」して人物の動きをリアルにアニメーション化する初の統合モデル
主な特徴
- 単一画像ベースの動画生成
  - 人物の写真1枚だけで、全身の動きを反映した自然な映像を生成可能
- マルチモーダル入力に対応
  - オーディオ、ビデオ、または両方を組み合わせた入力方式に対応
  - 従来モデルと比べてジェスチャー表現力が大幅に向上
- どんなアスペクト比の画像でも処理可能
  - 縦長の人物写真、半身写真、全身写真など、さまざまな画像比率に対応
- 多様なスタイルと入力データに対応
  - 漫画、人工キャラクター、動物、複雑なポーズなど、さまざまなスタイルを反映可能
- 音楽スタイルに応じた自然な身振り表現
  - 高音、低音、さまざまな音楽ジャンルに合わせた動きを生成可能
- ビデオベースの動作模倣が可能
  - 特定人物の動作をそのまま再現するvideo drivingに対応

2件のコメント

dhy0613 2025-02-13

わあ、これで中国が戦争をしたら、捏造されたプロパガンダ映像が一つや二つでは済まなそうですね

colus001 2025-02-13

わあ……これはすごくいいですね？

OmniHuman - 写真1枚から実写のような映像を生成するモデル

関連記事

2件のコメント