- Microsoft ResearchがVASA-1という新しいプロジェクトを公開
- たった1枚の人物写真とリアルタイム入力される音声から、写実的な話す顔の映像を生成する技術
- 音声に合わせて唇や顔の表情が自然に動き、実際の人が話している姿とほとんど見分けがつかないほどリアル
- 選択的シグナル(主な視線方向、頭部距離、感情オフセットなど)を条件として受け取る拡散モデルを使用し、主な視線方向(正面、左、右、上)、頭部距離スケール、感情オフセット(ニュートラル、幸福、怒り、驚き)に応じた生成結果を提示
- オフラインのバッチ処理モードで、512x512サイズのビデオフレームを毎秒45フレームで生成
- オンラインのストリーミングモードで最大毎秒40フレームまで対応し、必要な先行待機時間はわずか170ms(NVIDIA RTX 4090 GPUを1基搭載したデスクトップPC)
GN⁺の意見
- このような技術が実用化されれば、バーチャルヒューマン、AIアバター、メタバースなど幅広い分野で活用できる。特にゲーム、映画、アニメーションなどエンターテインメント産業で高い需要が見込まれる
- 一方で、これを悪用してフェイクニュースを作ったり、有名人の顔でディープフェイク動画を作成したりするなどの負の側面も懸念される。悪意ある利用を防ぐための技術的・制度的な仕組みが必要になりそうだ
- 類似技術としてはNVIDIAが発表したAudio2Faceなどがある。これらは主に事前学習済みの特定人物の顔しか生成できない一方、VASA-1は新しい顔もリアルタイムに生成できる点で差別化されている
- 開発チームによれば、VASA-1はまだ初期段階にあり、今後さらに画質と安定性を改善していく計画とのこと。商用化まではまだ時間がかかりそうだが、いつか私たちの日常の中でこうした人工人間に出会う日が来るかもしれない
2件のコメント
『それが知りたい』第1394回で、写真&音声で有名人になりすまして金をだまし取った事例が紹介されていましたが、こうしたことに悪用されるおそれがあり心配ですね
Hacker Newsの意見
要約: