1 ポイント 投稿者 GN⁺ 2024-10-05 | 1件のコメント | WhatsAppで共有
  • Meta Movie Genは、シンプルなテキスト入力だけで動画・サウンド生成、既存動画の編集、個人画像ベースの動画化を一か所で扱うAIメディアモデル研究
  • 動画生成は長尺の高画質な成果物とさまざまなアスペクト比に対応し、Metaはこれを業界初の機能として打ち出している
  • 既存動画にはスタイル変更、トランジション、精密編集をテキストで適用でき、ランタンを空中に浮かぶシャボン玉に変えるような変換が可能
  • 写真とテキストを一緒に入力すると、人物のアイデンティティと動作を維持したパーソナライズ動画が生成され、実験室・セルフィー・西部劇・DJシーンなどの例が含まれる
  • 効果音やBGM、サウンドトラック全体まで生成・拡張できるため、動画制作の流れがビジュアル生成からオーディオ構成までつながる

Movie Genが扱うタスク

  • Meta Movie Genは、Metaの最新研究成果として公開されたAIメディア基盤モデル
  • 1つのテキスト入力フローで複数の制作タスクを処理する
    • カスタム動画生成
    • サウンド生成
    • 既存動画の編集
    • 個人画像を固有の動画へ変換
  • MetaはMovie Genを没入型AIコンテンツの新たな標準として提示している

テキストベースの動画生成

  • Movie Genはテキスト入力から長尺の高画質動画をさまざまなアスペクト比で生成する
  • Metaはこの機能を業界初だとしている
  • プロンプトでは、シーン、被写体、動作、背景、照明条件をまとめて指定できる
    • ピンクのサングラスをかけたナマケモノがドーナツ型フロートの上に横たわり、トロピカルドリンクを持っているシーン
    • 炎の道具を両手に持った男性が海辺で円を描く動きを作るシーン
    • 黄色いサーフボードにつかまってサーフィンするコアラ
    • ほこりっぽい屋根裏部屋の鏡の前で踊る白い布の幽霊
    • 温泉で小さな帆船で遊ぶ赤い顔のサル

既存動画をテキストで編集

  • Movie Genは既存動画をテキスト入力で変更する精密編集に対応する
  • 適用範囲にはスタイル変更、トランジション、細かな編集まで含まれる
  • 例では、ランタンを空中へ浮かび上がるシャボン玉に変える変換が使われている

個人画像から作るカスタム動画

  • ユーザーが自分の写真をアップロードし、簡単なテキストを入力すると、Movie Genがパーソナライズ動画を生成する
  • 生成結果は人物のアイデンティティと動作を保つ形で構成される
  • 例のシーンには複数の環境と行動が含まれる
    • 虹色の壁紙がある実験室で実験する男性
    • 木製パネルの部屋で、イーゼル上のキャンバスに絵を描く女性
    • 男性とビーグル犬が裏庭のパティオでセルフィーを撮るシーン
    • 砂漠でつば広帽子と茶色いコートを身に着けた男性がお茶を持っているシーン
    • 古い西部の町で白馬に乗るカウガール
    • ロサンゼルスのルーフトップでレコードを回す女性DJとチーター

動画に合わせたサウンド生成

  • Movie Genはテキスト入力で効果音、BGM、サウンドトラック全体を作成または拡張できる
  • 生成されるサウンドは、動画のトーン、リズム、スタイルを反映するよう設計されている
  • 入力例では、具体的な音と音楽の雰囲気をまとめて指定している
    • 崖と人物に雨が降り注ぎ、BGMが再生されるシーン
    • 木の葉がカサカサ鳴り、枝が折れる音とオーケストラ音楽
    • ATVのエンジンが轟音を立てて加速し、ギター音楽が一緒に流れるシーン
    • スケートボードの車輪が回り、コンクリートに着地する衝撃音
    • 畏敬の念を呼び起こすオーケストラ曲
    • 口笛の後に鋭い爆発音と大きなcrackling音

クリエイター・エンターテインメント業界との協業

  • MetaはCreative Industry Feedback Programを通じて、受賞歴のある制作会社Blumhouseと協業した
  • BlumhouseはMovie Genの公開デビュー前に動画を作る映画制作者を選定した
  • クリエイターはAIメディアツール群を使って、興味深い、または有用だと考える成果物を作るよう依頼された
  • 監督Aneesh Chagantyの動画タイトルは"i h8 ai"

公開例と参考資料

  • Metaは、クリエイターたちがMovie Genでストーリーテリングを変えているとしている
  • Instagramの例には次のアカウントとプロンプトが含まれる
    • @paigepiskin: 小さなふわふわの猫顔タランチュラを持つ手、犬を灰色の赤ちゃんドラゴンに変える編集
    • @ka5sh: ピンクのピエロ靴を履いた緑色の漫画風エイリアン、人物を赤いバケットハットをかぶった緑のエイリアンに変える編集
    • @girls: 秋の並木道を歩く少女、ハロウィン飾りが掛かった壁の前でコーヒーを飲む2人の女性
    • @memezar: 赤ちゃんカバと筋肉質のゴリラのボクシング試合
    • @ravivora: 前景に濃い霧を追加、クラゲに囲まれて水面へ上がってくる女性
  • 追加資料としてMovie Gen研究論文が提供されており、MetaはAIメディア生成で新たな業界ベンチマークを打ち立てたとしている
  • 関連記事として、エンターテインメント業界とクリエイターの協業およびAIベースのコンテンツ制作時代ブログがリンクされている

1件のコメント

 
GN⁺ 2024-10-05
Hacker News の意見
  • テキストで動画を編集する機能がいちばん面白い。CGI 予算のないインディー映画ですぐに使えそう。
    映画館のシーンのように、まずラウンジチェアで撮影しておき、あとから映画館らしく見えるように変える、といったことが可能になる。

    • 完全に同意。男性をスタジアム背景に入れる背景差し替えは、映画やテレビ番組のカットとしてそのまま使えるレベルだし、背景も十分それらしく、誰も違和感を覚えなさそう。
      うまく使えばインディー映画や短編の品質は上がるだろうし、限界は創造力だけだ。
    • そもそもなぜ俳優を使うのか、と思う。俳優にはお金がかかるし、スケジュール調整も難しい。全部AIで作ればいい。
      どうせモデルはインディーの出演者より優れた俳優たちで学習されているはずだから。
  • これは映画ではなくクリップだ。ストック写真・動画業界は間違いなく心配しているだろうし、これらのモデルが自分たちの作品で学習された可能性は100%なので、訴訟も起こすだろう。
    この技術がいつか映画を作るとしても、テキスト・画像・音楽モデルが作るものと同じように、これまで作られてきたすべての平均値になって、ものすごく平凡な結果になりそうだ。

    • 映画制作ツールで「モデルAを32fのシーンに入れて、群衆を追加し、そのあとAにズームして。とても心配そうな表情にして」と指示するような形を想像している。
      その後、シーンを調整し続けて保存し、次のシーンへ進める。AIがアニメーションをつなげられるなら、さらに進化したときに、与えられたモデルを忠実に再現できない理由もなさそうだ。
    • どちらの業界も結局、ほかと同じように導入するか、死ぬかになるだろう。すべてをAI任せにせず、この新しいツールを創造的に使う側が大きな勝者になりそうだ。
    • すでに複数のAI短編映画祭やAIミュージックビデオが作られている。ただし品質はまちまちで、最も良い作品は結局、優れた編集や強い演出意図といった基本的な制作力を備えているものだった。
      長編が出ているのか、制作中なのかは分からない。
    • 問題は、こうしたストック映像会社が、史上最も裕福な企業たちと対峙しなければならない点だ。法的対応には莫大なお金と時間がかかる。
      言いたくはないが、今の状態では、AIがこのまま成長し続ければ、テック企業があらゆる場所に浸透し、強大になる可能性が高い。
  • なぜ実質的に静的HTMLのウェブサイトがこんなに多いのに、スマートフォンをカクつかせるのか分からない。
    動画は格好よく見えるが、スマホが2秒ごとに止まると、関連する記事を楽しく読めない。

    • Pixel 6a と Chromium ブラウザでも奇妙なカクつきが見える。モバイルなのでソースは確認できないが、これが単なる静的HTMLのはずはない。
      ページをスクロールするとテキストの一部が消えたり飛び出したりするが、スクロール連動アニメーションでもなく、ほとんどランダムに近い。何かがブラウザのレンダリングループをブロックして、実際のテキスト描画が追いついていない感じだ。こんな単純なページならあり得ないバグだが、ここでReactを使っているなら、もはや何が起きても不思議ではないと思う。
    • こちらではひどくカクつくわけではないが、画像や動画要素が読み込まれるときのレイアウトシフトは確かにある。
    • JavaScriptをオフにすると、実際かなり使い物になって速い。
    • こういうものを作る会社は、ウェブ開発能力が不足しているのかもしれない。
    • どのブラウザなのか気になる。
  • 人間は視覚入力と視覚的娯楽に過度に依存している。だが、そうしたビジュアルはますます無意味に感じられ、すべてファストフードのようなゴミコンテンツに見える。
    未就学児でも想像できるものなら何でも数秒で作れるようになったからといって、より良くなったり実際の価値が生まれたりするようには思えない。もしかすると、まさにそれがこの技術の価値なのかもしれない。映像で物語を想像する映画のようなものを、完全に忘れてしまっていい時代が来るのかもしれない。もう誰も気にしなくなるだろうから。

    • それらもジャンクフードのようなビジュアルだ。Fisher-Price と弱い幻覚キノコを混ぜたように見える、と言う以外に説明しにくい。
    • そうだね。写真の魅力も理解したことがない。簡単すぎるし、何か独創的なものを作ろうとして何時間も絵を描く必要もなく、ただカメラを買ってボタンを押すだけでいい。
      それなのに人々がお金を払うなんて理解できない。
  • 何年も前から、生成コンテンツの津波がオンライン上の本物の人間の声を飲み込むだろうと言ってきた。その結果、インターネットは娯楽以外の用途では事実上使えなくなるかもしれない。

    • 興味深いし、すでに一部はそう見える。ここや他のフォーラムも大半は人間だと思っていたが、そうではないように感じる。
      グループチャットでも友人の一人がAIの回答を使っているのが見えるのに、他のメンバーは気づかず真面目に返している。こういうものが気持ち悪く感じられ、本能的にAIのゴミコンテンツを避けたくなる。もう次に何があるのか、どこへ行けばいいのか分からない。「人間」のフォーラムがインターネットのさらに奥まった片隅へ押しやられるのか、それとも皆がオフラインで会うことをより好むようになるのか、見当がつかない。
    • もしかすると良いことなのかもしれない。インターネットは人類をつなぐ組織という潜在力に到達したことがない。大半はただのマーケティングとスパムだ。
      インターネットが死に、みんながより小さなコミュニティに戻るなら、それはそれほど最悪ではないと思う。そもそも私たちは地球規模のコミュニケーションに適応するよう進化していない。
    • なぜ気にすべきなのか分からない。
      たいていの人間が何を言っているか見たことがある? AIのほうが知的なことを言うなら、私は賛成だ。
    • 認証済みの人間ユーザーのコミュニティへ行けるといい。ソーシャルメディアよりは範囲を小さくして。
    • 昔のインターネットは、変わり者たちが隠れて遊び、楽しむ隠れ家のような場所だった。スマートフォンが発明されて以降、もしかするとその前から、「Eternal September」のように壊れてしまった。
      最近はむしろオフラインで時間を過ごしたい。広告、注目集め、AIのゴミコンテンツがない、別のインターネット上の隠れ家はまだあるのだろうか?
  • すべての動画に、うまい表現は見つからないものの、すぐにそれと分かる生成AI特有の光沢感がある。また、いちばん目立つのはエッジ付近で起きる微細な変化で、ぼやけたアーティファクトを生み出している

    • その程度では十分ではないと思う。これらの動画は高品質だ。ソーシャルメディアに投稿されれば、圧縮のせいで欠陥の大半は消える。
      人々がAIコンテンツを予期していないときは、それがAIだと気づく可能性がずっと低くなることも、すでに示されている。油断していたら、この動画の大半を100%本物だと信じていたと思う
    • その光沢感は、テレビや映画から映像をコピーして Facebook Reels のような場所に投稿する人たちが使うフィルターのように見える。
      盗まれたコンテンツに十分なノイズを加えて、コンテンツ検出フィルターを回避しようとするパターンのリールが多い。コメントには詐欺サイトへのリンクがあり、「このコンテンツのIMDBページ」と表示されている
    • 動きが変に見えた。浜辺の幼い女の子は大人のように動き、画家はまるで操り人形のようで、すべてがスローモーションに感じる
    • 少なくともこの動画の中の人間はみな指の本数が合っているように見えるので、進歩ではある。Moo Deng はなぜか元々自然な光沢があるように見えるので、それを責めることはできない。
      それでもエッジの問題は依然として大きい
    • RLHF やその他の人間ベースのモデル調整が、この過飽和・過剰なコントラストにどれほど寄与したのか気になる。
      平均的な消費者は画像や動画を比較するとき、そうした特徴をより好み、品質判断のヒューリスティックとして使っているように思える。以前のテキスト画像生成モデルと最新世代を比較し、あまり手が入っていない旧モデルは、最新モデルのようにキッチュで誇張された出力に偏っていなかったと主張する比較もあった
  • 自分があまりに閉鎖的に見ているだけかもしれないが、いったい誰がこんなものを望んだのか、そして簡単にアクセスできるAIゴミ生成の結果を考えた人はいるのか?
    すでにインターネットでは、どこを見るべきか知らなければ良質なコンテンツを見つけるのはほぼ不可能だ

    • 今後さらに悪化し、アグリゲーター兼ゲートキーパーの価値は途方もなく大きくなるだろう
    • 「誰がこんなものを望んだのか」への答えは、「できるから」という冗談を聞いたことがあるか、ということだ
    • 私は望んでいたし、こういうことが起きてかなりうれしい。背もたれに寄りかかって目を閉じていれば、Hollywood の制作チームなしでも頭の中のビジョンが現実化する新しいコンピューティング時代が開かれつつある
  • うちの子どもたちは二人とも創造的な気質が強いのだが、AIのせいで創作で生計を立てられなくなるのではないかと恐れている。ただ最近は別の考えも浮かぶ。
    私たちは何十年にもわたって、娯楽技術を改善するために何十億、もしかすると何兆ドルも費やしてきた。AIが想像できるあらゆる娯楽を作り出せるようになれば、そうした娯楽を退屈に感じ始めるかもしれない。そのときは、宇宙探査、物理学と化学の知識の拡張、病気との闘いのほうがはるかに面白いと判断するかもしれない。それらは現実だからだ。同じ観点から、人間が作った芸術も現実であるがゆえに、より面白くなる可能性がある

    • 現実で人々と話していると、ほとんどいつもその点に戻ってくる。多くの人はAIの成果物を珍しがるが、芸術的なレベルで特に興味深いとは見ていない。
      AIに熱狂している人たちは主にオンラインでしか見かけないが、うまい表現がないものの、本当にオンラインに深く浸かっていて、自分で芸術を作る技術や知識、能力がない人たちのように見える。誰かが「AI生成」と言った瞬間、芸術的には即座に興味が失われる。Photoshop やデジタルアートツールを使うこととは違う。人間の介入が最小限であることを利点として掲げるのは、それが芸術として提示された瞬間、私にとっては出発点から成り立たない。この技術に対するユートピア的なビジョンが実現するかは見守るが、新技術への息もつかせぬ楽観が、結局は広告中心の平板なMBA式のゴミに固まっていくのを何度も見てきたので、あまり楽観していない
    • 別の角度もある。
      Twitterで新しいAI生成コミュニティをたくさんフォローしているが、このコミュニティにはクリエイティブ業界の人が多い。広告業界で働いていたある人が、最近、有名ブランドの撮影について共有していた。サウンドステージ、俳優、音響、メイク、照明などが3日間セットされ、約25人が3日間働いた。しかしプリプロダクションとポストプロダクションまで含めると、その裏には約3か月の努力があった。編集、カラーグレーディング、音響編集、音楽などを考えればいい。創造的な子どもたちは、似たような成果物を自分たちだけで実現できる世界に生きることになるかもしれない。小さなチームで、1人はキャラクター、1人はオーディオ、1人は脚本を担当する、といった具合だ。数万ドルのレンタル機材や25人の専門家がいなくても、根気とAI生成ツールで頭の中のアイデアを実現できるようになる。この新しいツールは、今想像している以上に可能性を開いてくれると本気で信じている
    • もしかすると、芸術を作る能力の制約要因は、映画制作、絵画、楽器演奏に必要な技術ではなく、創造性になるのかもしれない
    • 絵の具が木炭を置き換えたわけではなく、写真が絵画を置き換えたわけでもなく、デジタルアートが物理媒体を置き換えたわけでもなく、ランダムなゲームレベル生成が建築を置き換えたわけでもない。
      AI生成作品は、人間生成作品の隣に居場所を見つけることになるだろう。むしろ、わずかな人間の才能が生む差を際立たせ、アート映画や優れた演技の市場を改善する可能性もある。危機にさらされているのは芸術ではなく、雑務だ。変わるのは、何百万人を雇っていた人間制作の駄作の規模が、数十人だけを雇うAI制作の駄作へ移るという点だ
    • AIがなくても、創造性で生計を立てることは、ほとんどの人にとって元々うまくいかない。創造的表現はそれ自体として存在するもので、それで食べている人たちは幸運な例外だ
  • これは本当にすごい。空間的・時間的一貫性が信じられないほどだ

  • 予想される結果はこうだ。Hollywood のすべての脚本は今後、プリビズ映画と一緒に提出されるようになり、漫画をアニメーションに変換するコンバーターが登場し、はるかに多くの製品向けオンライン広告が作られるようになるだろう

    • プリビズとストーリーボードは、この技術から非常に大きな恩恵を受けるだろう。最終的にはB-rollやセカンドユニットの撮影分にも使えるようになりそうだ。
      その次は、この技術が停滞するのか、さらに上に行くのかを見守る必要がある
    • AIで作られた低品質な「映画」と、動線が付いた脚本は興味深い概念だ。
      漫画をアニメーションに変えることはすでに存在している。広告、特にソーシャル・オンライン広告もすでに起きている