Lumiere: リアルな動画生成のための時空間拡散モデル

(lumiere-video.github.io)

1 ポイント投稿者 GN⁺ 2024-01-26 | 1件のコメント | WhatsAppで共有

動画生成で難題とされる動きの一貫性を改善するため、Google ResearchのLumiereは、リアルで多様な動画合成を目指したテキスト・トゥ・ビデオ拡散モデルである
中核はSpace-Time U-Netで、離れたキーフレームを先に作ってから補間するのではなく、全時間区間を1回のモデルパスで生成する
空間・時間方向のダウンサンプリングとアップサンプリングを組み合わせ、事前学習済みのテキスト・トゥ・イメージ拡散モデルを活用して低解像度のフルフレームレート動画を直接生成する
デモはText-to-Video、Image-to-Video、スタイル化生成、動画スタイル化、cinemagraph、動画インペインティングまで、生成と編集の作業を幅広く含んでいる
初心者でも視覚コンテンツを柔軟に作れる一方、偽情報・有害コンテンツへの悪用可能性があるため、バイアスと悪用の検知もあわせて必要である

Lumiereの目標と公開資料

Lumiereは動画合成において、リアリティ、多様性、動きの時間的一貫性を高めることに焦点を当てたテキスト・トゥ・ビデオ拡散モデルである
プロジェクトページでは論文と複数のデモ動画を確認できる
生成タスクだけでなく、動画編集アプリケーションもあわせて示している

全時間区間を一度に生成する構造

LumiereはSpace-Time U-Netアーキテクチャを導入し、動画の全時間長を1回のモデルパスで生成する
既存の動画モデルは、離れたキーフレームを先に合成してから時間超解像を適用する方式であるため、グローバルな時間的一貫性を保つのが難しい
このモデルは空間だけでなく、時間方向にもダウンサンプリングとアップサンプリングを適用する
事前学習済みのテキスト・トゥ・イメージ拡散モデルを活用し、複数の時空間スケールでフルフレームレートの低解像度動画を直接生成する

テキストと画像からの動画生成

Text-to-Videoデモは、テキストプロンプトだけで動画を生成する
- 例として、山頂のハイカー、火星基地の周辺にいる宇宙飛行士、サングラスをかけた犬が運転する場面、チョコレートシロップがバニラアイスクリームに注がれる場面、花火、海辺の夕焼けのタイムラプスなどが含まれる
Image-to-Videoデモは、入力画像とプロンプトをもとに動画を作る
- 例として、縞模様のシャツを着た悲しそうな猫、雪の中で踊るテディベア、海を泳ぐカメ、ノートPCを使いながらコーヒーを飲むサル、ピアノを弾く猫などが含まれる

スタイル化生成と動画編集

Stylized Generationは、単一の参照画像を使って目的のスタイルの動画を生成する
この過程では、微調整されたテキスト・トゥ・イメージモデルの重みが活用される
スタイル参照の例として、Sticker、3D Melting Gold、Flat cartoon、3D Rendering、Line drawing、Glowing、Watercolor painting などが含まれる
Video Stylizationでは、テキストベースの画像編集手法によって一貫した動画編集を行える
- 例のスタイルプロンプトには、“Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers” などが含まれる

領域ベースのアニメーションとインペインティング

Cinemagraphs機能では、画像コンテンツのうちユーザーが指定した特定領域だけをアニメーション化できる
Video Inpaintingデモは、マスクを適用した元動画を入力として受け取り、出力動画を生成する
インペインティングの例には、衣装やアクセサリーを変更するプロンプトが含まれる
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

社会的影響と安全性

Lumiereの主な目標は、初心者ユーザーが視覚コンテンツを創造的かつ柔軟に生成できるようにすることである
同じ技術には、偽のコンテンツや有害コンテンツの制作に悪用されるリスクもある
安全で公正な利用のためには、バイアスや悪意ある利用事例を検知するツールを開発し、適用する必要がある

1件のコメント

GN⁺ 2024-01-26

Hacker Newsの意見

この発表が科学研究の外見をまとって出されているのが非常に不快だ
これは自慢、宣伝、マーケティングとしか見えず、再現可能な手順が説明されていない
アーキテクチャ図が他の人に着想を与えることはあっても、科学で最も重要な反証可能性は提供していない
Googleが嘘をついているか確認する方法がない以上、すべての例は選別され、後処理されていると考えるべきだ
モデルの学習データも違法に取得されたものだと見なすべきで、Googleは今や立証不能な主張を繰り返しているので、極端な懐疑から出発しなければならない
BardのGemini性能をGPT-4と比べると大きく見劣りし、モデルとの相互作用だと主張した動画も実際にはそうではなかった
どんな組織もこんなふうに運営されるべきではないが、Googleは特に深刻な常習犯になっている
- その態度は科学にとって生産的ではないように思える
  結果を信じないなら、主張されている出力は無視して中核となるアイデアだけ取り入れればいい
  彼らのいわゆる宣伝を無効化するために悪意を仮定する必要はない
  そうした態度は気分を少し良くするかもしれないが、主張を政治的なものにし、実際に真実だった場合にはむしろ進歩を遅らせる
  Googleの論文のかなりの部分は再現可能な成果物をほとんど含んでいなかったが、それでも最終的には有用な技術の土台になってきた歴史がある
- 参考までに、データを使ってモデルを学習させること自体は違法ではない
  商業的利益のためにモデルがその同じデータを出力するようにすることが違法なのだ
  この違いは意図的に曖昧にされがちだが、理解しておく必要がある
- Gemini Ultraにどうやってアクセスしたのか気になる
  それともGPT-3.5と比較されるGemini Proのことを言っているのか？
- この動画はほぼ間違いなくGoogleの投資家向けに見える: 「我々は死んでいないし、検索も死んでいない！踊る熊だ！」
  それでも、技術が宣伝どおりなら非常に印象的だ
- GoogleはすでにAIデモの捏造で見つかったことがあるので、嘘をついているか、よく見えるように例を選別した可能性が高いと考えられる
  実際の研究の世界なら、こんなことをして摘発されれば、その後の研究だけでなく過去の研究まで厳しい検証対象になる
例は以前に見た他の手法よりずっと一貫していて、長く続いている
他のモデルに比べて脚が床の上で滑ることも少ない
一方で人の顔はあまり良く見えず、たとえばモナ・リザの微笑みのような場面がそうだった
個人的には、初めてまともに見える動画生成モデルだ
修正: Googleの作品だと今見た。じゃあ公開リリースはなさそうだ
- 公開されたら1週間以内に、それをベースにしたNSFWモデルがCivitaiに上がりそうだ
- いや、研究者たちはいつものようにこの研究の上にさらに積み上げていくだろうし、最終的にはどこかの会社がこの研究を含む多くの研究成果を基に成功した製品を作るだろう
  そのとき私たちはGoogleが出遅れたと文句を言っているはずだ
  Googleが最先端の研究をたくさん支援し、公に共有しているのはかなりすばらしいことだ
  これがどれだけ長く続くかはわからない
- このデモ動画のサンプルのうち、どれだけが本物なのか気になる
  https://arstechnica.com/information-technology/2023/12/googl...
- 「モナ・リザの微笑み」と言っていたが、あれはLeonardo da Vinciの"Mona Lisa"[1]ではなく、Johannes Vermeerの"Girl with a Pearl Earring"[2]だ
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
現在、彼らのGitHubにはリンク先のページ以外は何もない
https://github.com/lumiere-video
そもそも何かあると主張していたわけではないが、それでも確認してみたし、GitHubプロフィールに行くリンクも見当たらなかった
ホストされているウェブサイトのURLを見て、自分でプロフィールのアドレスを入力したくない人のためにリンクを置いておく
- AI/機械学習分野でよく見かけるやり方だ: 公開されていないものの情報をGitHubに載せておいて、「GitHubにある」と言う
- 大規模言語モデルが残念ながら新たな流行を作ってしまった
動画インペインティングが興味深い
子どもたちが最近、昔のSpongeBobのエピソードを見ていたのだが、4:3のアスペクト比がかなり気になった
両端をインペインティングして16:9に戻すのは面白い用途になりそうだと思ったが、横からフレーム内に入ってくる物体を処理するには、ある種のプレビューに基づく微調整が必要になりそうだ
- 実際、テレビ・映画業界で誰かが買いそうな製品に聞こえる
  固定アスペクト比の映像を引き伸ばしたり、目立つ歪みなしに本来とは違うサイズへ動的に調整したりするものだ
  追加された縁を観客が気づかないほど正確に推定できればよい
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (タブレット/デスクトップ)
  新しい映画を古い白黒サイレント映画のように見せて、それに合うフレームを与えることもできる
  どんな映画でもIMAXスクリーンで自然に機能するように合わせられる
- 単に映像を逆向きに処理すればいいのでは？
こういう小さなAI動画生成サンプルの奇妙で不気味な夢のような性質を見るたびに、論文がイースターエッグとして「dreaming of electric sheep」というプロンプトを一度も入れないのがいつも残念だ
くそっ、これが2〜3年前の発表だったら衝撃的だっただろう
こうした新しいリリースがものすごい速さで出てくるのに、みんな慣れてしまったが、それでも驚かされる
こういう能力を持つソフトウェアを早く使ってみたい
修正: いや、Googleか。オープンソースが出るまで待つよ
古い画像を現代のデータセットと頻繁に混ぜているように見える
ジョージ・ワシントンの肖像画を与えて、プロンプトに「笑う男」を入れたら、[入れ歯][1]が見えるのだろうか、それとも真っ白な歯が見えるのだろうか？
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- そういう分布外データは当然プロンプトで与える必要がありそう
  こうしたモデルが、より大規模な言語モデルのように事実についての巨大な世界モデルを作ったのかは明確ではなく、主に物体がどう動くかを把握している段階だと思う
  データセットでは大半の人が真っ白な歯を見せていて、ワシントンの口の映像はないのだから、望む入れ歯を詳しく描写しない限り、そちらがデフォルトになるだろう
いくつか考えたこと: Googleなので、たぶん私たちが直接使えることはないだろう
それでもアイデアはとても興味深い。モデルにまず映像の小さな全時間表現を生成するよう学習させ、その後で時間とピクセルの両方に対してアップスケーリングする方式だ
本質的には、以前のモデルが深度マップを追加していたとすれば、これはさらに別の次元として時間マップを追加するようなものだ
見た目には一貫性はかなり良い
不自然さは、フレームごとの一貫性維持によくある失敗というより、モデルが時間に応じて対象が「何をすべきか」を決める部分に近く見える
Google研究者たちの大きな洞察は、一貫性そのものを条件付け・学習・生成してからフレームを埋められることだ
Stabilityのような複数のモデル提供者が十分に再現できそうで、特に実装不可能に見える部分はない
ピクセルテーマの論文にピクセルテーマの投稿だ
かなり印象的で、まもなく「1段落で映画を作る」プログラムがとてつもない量の成果を生み出すことになりそうだ
Googleの作品なので、たぶん箱の中に入って私たちが決して目にしない Rick and Morty ツールになる可能性が高い
著者表記の形式は気に入った
1,2,3,4,*,+ のような表記は、主著者、所属機関、主要貢献者を区別するのに良い
天文学や物理学の論文を多く読んでいると、著者が10人を超えているのに誰が何をしたのかまったく分からないことがよくある
たとえば arXiv のリンクには似た形式が見当たらない
そしてこれはすぐに悪用ポルノに使われる可能性が高い
Walking Woman の例、5番目の変種: “Wearing no clothing”
- 思いつかなかったが、その通り。こうした技術で悪用ポルノがすぐ蔓延するだろう
  世界中の誰もが、まもなく自分の顔が貼り付けられたリアルで露骨なポルノを持つことになるかもしれない
今年、最初の長編AI生成映画を見ることになるだろう
ばかげた話に聞こえるなら、映画の初期には平均ショット長が12秒で、今日ではわずか2.5秒しかないことを考えればよい
生成のあいだで被写体の一貫性を維持するような重要な手法はいくつかさらに磨く必要がある
しかし、深度に応じてレイヤーを分離してより静的な画像を使ったり、より深度が必要な部分にはテクスチャ付きの単純な3Dモデルを作ったりする既存手法で、多くの不一致は埋められると思う
十分な努力とスキルがあれば、現在の技術だけでも可能そうだ
- 映画制作者が今ストーリーボードを書くように、脚本と撮影を洗練させるために映画の複数の草案版を作る姿は容易に想像できる
- なぜ「映画」を作る必要があるのか？視聴者が衣装を好きに変えられる1つの筋書きを作ればいいのではないか？
- こういうもので人々が大量に生み出す他のあらゆるメディアと同じく、たぶん完全にひどいものになるだろう

Lumiere: リアルな動画生成のための時空間拡散モデル

Lumiereの目標と公開資料

全時間区間を一度に生成する構造

テキストと画像からの動画生成

スタイル化生成と動画編集

領域ベースのアニメーションとインペインティング

社会的影響と安全性

関連記事

1件のコメント

Hacker Newsの意見