VASA-1: 1枚の写真と音声から話す顔をリアルタイム生成

(microsoft.com)

4 ポイント投稿者 GN⁺ 2024-04-20 | 2件のコメント | WhatsAppで共有

Microsoft ResearchがVASA-1という新しいプロジェクトを公開
たった1枚の人物写真とリアルタイム入力される音声から、写実的な話す顔の映像を生成する技術
音声に合わせて唇や顔の表情が自然に動き、実際の人が話している姿とほとんど見分けがつかないほどリアル
選択的シグナル（主な視線方向、頭部距離、感情オフセットなど）を条件として受け取る拡散モデルを使用し、主な視線方向（正面、左、右、上）、頭部距離スケール、感情オフセット（ニュートラル、幸福、怒り、驚き）に応じた生成結果を提示
オフラインのバッチ処理モードで、512x512サイズのビデオフレームを毎秒45フレームで生成
オンラインのストリーミングモードで最大毎秒40フレームまで対応し、必要な先行待機時間はわずか170ms（NVIDIA RTX 4090 GPUを1基搭載したデスクトップPC）

GN⁺の意見

このような技術が実用化されれば、バーチャルヒューマン、AIアバター、メタバースなど幅広い分野で活用できる。特にゲーム、映画、アニメーションなどエンターテインメント産業で高い需要が見込まれる
一方で、これを悪用してフェイクニュースを作ったり、有名人の顔でディープフェイク動画を作成したりするなどの負の側面も懸念される。悪意ある利用を防ぐための技術的・制度的な仕組みが必要になりそうだ
類似技術としてはNVIDIAが発表したAudio2Faceなどがある。これらは主に事前学習済みの特定人物の顔しか生成できない一方、VASA-1は新しい顔もリアルタイムに生成できる点で差別化されている
開発チームによれば、VASA-1はまだ初期段階にあり、今後さらに画質と安定性を改善していく計画とのこと。商用化まではまだ時間がかかりそうだが、いつか私たちの日常の中でこうした人工人間に出会う日が来るかもしれない

2件のコメント

tomriddle7 2024-04-22

『それが知りたい』第1394回で、写真&音声で有名人になりすまして金をだまし取った事例が紹介されていましたが、こうしたことに悪用されるおそれがあり心配ですね

GN⁺ 2024-04-20

Hacker Newsの意見

要約:

マイクロソフトのVASA-1は、たった1枚の写真と音声トラックからディープフェイクを作成できる。ディープフェイク技術は今後さらに高速化し、品質が向上し、簡単かつ安価になっていくと思われる。
一方で、クレジットカード会社は音声認証を導入したが、誰でもソーシャルネットワークから短い音声クリップを入手して声を複製できるという事実を認識していない。企業は時代に取り残されている。
VASA-1はEMOほど優れてはいない。作り物っぽく見える身体の動きがあり、リップシンクがうまくいっていない部分も多い。目の動きや全体的な頭部・身体の動きが自然ではない。
この技術の唯一の目的は、スパイが他人になりすまして悪用することのように見える。これからは、すべての電話やビデオ会議で認証が必要になるのだろうか？
この論文はDiffusion Transformersを使用していると言及している。オープンソース実装はFacebook ResearchのPyTorch実装だが、非商用ライセンスである。これに相当するMITやApacheライセンスのものがあるのか気になる。
私たちが見ているものの真正性を保証する、何らかの管理の仕組みが必要だ。しかし、写真や動画を加工すると署名が壊れるなど、簡単な問題ではない。
これは完全に狂気じみた技術であり、今後さらに良くなっていくだろう。ディープフェイクはまだ先の話だと思っていたが、オンラインではもっと注意深くあるべきだと感じる。
選挙干渉のための素晴らしい技術的進歩だ！

VASA-1: 1枚の写真と音声から話す顔をリアルタイム生成

GN⁺の意見

関連記事

2件のコメント

Hacker Newsの意見