1 ポイント 投稿者 GN⁺ 2024-01-26 | 1件のコメント | WhatsAppで共有

テキスト-動画

  • Google研究チームが、Lumiereというテキスト-動画拡散モデルを紹介した。
  • このモデルは、リアルで多様かつ一貫した動きを表現する動画の合成に重点を置いている。
  • 空間-時間U-Netアーキテクチャを使用し、動画の全時間を一度に生成する。

画像-動画

  • Lumiereを使うと、単一の参照画像を用いて目標スタイルの動画を生成できる。
  • 微調整されたテキスト-画像モデルの重みを活用する。

動画スタイル化

  • Lumiereにより、既存のテキストベース画像編集手法を一貫性のある動画編集に使用できる。

シネマグラフ

  • Lumiereモデルは、ユーザーが指定した特定領域内の画像内容をアニメーション化できる。

動画インペインティング

  • Lumiereモデルは、マスクされた動画の内容を復元して完成した動画を生成できる。

著者および謝辞

  • 研究チームは、Google Researchと複数の大学の共同著者で構成されている。
  • インターンシップを行い研究に貢献した著者たちと、協力および支援を提供したさまざまな人々に感謝を表している。

GN⁺の意見:

  • Lumiereモデルは、動画合成分野における重要な進歩を示している。リアルで多様な動きを持つ動画を生成できることは、コンテンツ制作者や動画編集者にとって大きな助けとなるだろう。
  • この技術は、特に映画や広告業界でビジュアルストーリーテリングを強化し、創造的表現を拡張することに貢献しうる。
  • Lumiereの開発は、人工知能ベースの創作ツールがどのように創造的作業を変えつつあるかを示す事例である。

1件のコメント

 
GN⁺ 2024-01-26
Hacker Newsのコメント
    • 科学研究の名のもとに提示されたこの仕事には非常に不快感を覚える。これは自慢、宣伝、マーケティングとしか言いようがない。再現可能なプロセスは説明されておらず、アーキテクチャ図は着想を与えるかもしれないが、科学的試みの最も重要な側面である反証を許さない。Googleが嘘をついているかどうかを確かめる方法がないので、すべての例は選別され後処理されていると仮定しなければならない。モデルの訓練に使われたデータは違法に取得されたものだと仮定すべきだ。Googleは今や立証不可能な主張を日常的に行うため、極端な懐疑から出発しなければならない。たとえば、BardでのGeminiの性能はGPT-4と比べてはるかに劣っている。モデルと相互作用していると主張する動画を公開したときも、実際にはそうではなかった。
    • 例はこれまで見た技術よりもはるかに一貫していて長く見える。他のモデルと比べると、脚が床の上で滑ることがずっと少ない。一方で、人間の顔はあまり良く見えない。たとえば、微笑むモナリザがそうだ。これは初めての優れた動画生成モデルのように見える。修正: Google製だと今知ったので、公開されることはないだろう。
    • 彼らのGitHubには今のところリンク先のページ以外には何もない。彼らが公開すると主張したこともない。それでも確認してみる必要があったし、GitHubプロフィールに飛ぶリンクも見当たらなかった。ホストされたウェブサイトのURLを手入力したくない人のために、ここにリンクを共有する。
    • 動画インペインティングは興味深い。最近子どもたちが古いスポンジ・ボブのエピソードを見ていて、4:3のアスペクト比に驚いた。16:9に戻すために左右の縁をインペイントするのは面白いユースケースになりそうだ。ただ、横から入ってくる物体について何らかの先読みが必要になりそうだ。
    • こうした小さなAI動画生成サンプルの不気味で夢のような性質のせいで、こういう論文がイースターエッグとして「電気羊を夢見る」を含めていないことにいつもがっかりする。
    • この発表がたった2〜3年前だったら本当に驚異的だっただろう。こうした新製品が非常に速く頻繁に出てくることに私たちは皆慣れてしまったが、それでもなお驚くべきだと思う。こういう能力を持ったソフトウェアを使える日が来るのが待ちきれない。修正: Google製なので、オープンソース版が出るまで待つことにする。
    • 古い画像を現代的なデータセットと混ぜていることがよくあるように思える。ジョージ・ワシントンの肖像画を使って「笑っている男」を求めたら、彼の歯は入れ歯に見えるのだろうか、それとも白い歯に見えるのだろうか?
    • いくつかコメント: Googleなので私たちが直接使えることはないだろう。それでもアイデアはとても興味深い。モデルを訓練して動画全体の小さな時系列表現を生成させ、その後で時間方向とピクセル方向の両方にアップスケールする。深度マップを追加するモデルは見たことがあるが、このモデルは「時間マップ」をもう1つの次元として追加している。一貫性はかなり良く見える。時間を通じてモデルが何を「すべきか」を決めることに関するぎこちなさのほうがより目立つ。Googleの研究者たちの大きな洞察は、一貫性をそれ自体の条件として与え、訓練し、生成できるということだ。これはStabilityのような他のモデル提供者にも再現できそうで、実装不可能に見えるものはない。
    • ピクセルをテーマにした投稿であり、ピクセルをテーマにした論文だ。かなり印象的で、おそらく近いうちに「1段落で映画を作る」プログラムの巨大な群れを引き起こすだろう。Googleなので、たぶん箱の中にしまわれて、私たちが決して目にすることのないRick and Mortyのガジェットになるだろう。著者一覧の形式が素晴らしい。主要著者、所属認証、主要貢献者のための1,2,3,4,*,+表記が良い。10人を超える著者がいる天文学や物理学の論文をたくさん読んできたが、誰が何をしたのかまったく分からない。たとえば、arXivのリンクには同様の形式は見られない。おそらくすぐに悪用的なポルノに使われるだろう。歩く女性の例: (5番目のバリエーション) 「服を着ていない」
    • 今年、初の長編AI生成映画を見ることになるだろう。私が狂っていると思うなら、映画の黎明期でさえ平均ショット長が12秒で、今日ではわずか2.5秒だということを考えてみてほしい。世代をまたいで一貫したテーマを保つことのような重要な技術はいくつか洗練される必要があるが、深度に応じてレイヤーを分離してより静的な画像を使ったり、より深さが必要な場所にテクスチャ付きの単純な3Dモデルを生成したりする既存の手法を適用すれば、多くの不整合を補える。十分な労力と技術を持つ人なら、既存技術だけでも実現できるだろう。