Meta Movie Gen - 没入型AIコンテンツの新たな標準
(ai.meta.com)- Meta Movie Genは、シンプルなテキスト入力だけで動画・サウンド生成、既存動画の編集、個人画像ベースの動画化を一か所で扱うAIメディアモデル研究
- 動画生成は長尺の高画質な成果物とさまざまなアスペクト比に対応し、Metaはこれを業界初の機能として打ち出している
- 既存動画にはスタイル変更、トランジション、精密編集をテキストで適用でき、ランタンを空中に浮かぶシャボン玉に変えるような変換が可能
- 写真とテキストを一緒に入力すると、人物のアイデンティティと動作を維持したパーソナライズ動画が生成され、実験室・セルフィー・西部劇・DJシーンなどの例が含まれる
- 効果音やBGM、サウンドトラック全体まで生成・拡張できるため、動画制作の流れがビジュアル生成からオーディオ構成までつながる
Movie Genが扱うタスク
- Meta Movie Genは、Metaの最新研究成果として公開されたAIメディア基盤モデル
- 1つのテキスト入力フローで複数の制作タスクを処理する
- カスタム動画生成
- サウンド生成
- 既存動画の編集
- 個人画像を固有の動画へ変換
- MetaはMovie Genを没入型AIコンテンツの新たな標準として提示している
テキストベースの動画生成
- Movie Genはテキスト入力から長尺の高画質動画をさまざまなアスペクト比で生成する
- Metaはこの機能を業界初だとしている
- プロンプトでは、シーン、被写体、動作、背景、照明条件をまとめて指定できる
- ピンクのサングラスをかけたナマケモノがドーナツ型フロートの上に横たわり、トロピカルドリンクを持っているシーン
- 炎の道具を両手に持った男性が海辺で円を描く動きを作るシーン
- 黄色いサーフボードにつかまってサーフィンするコアラ
- ほこりっぽい屋根裏部屋の鏡の前で踊る白い布の幽霊
- 温泉で小さな帆船で遊ぶ赤い顔のサル
既存動画をテキストで編集
- Movie Genは既存動画をテキスト入力で変更する精密編集に対応する
- 適用範囲にはスタイル変更、トランジション、細かな編集まで含まれる
- 例では、ランタンを空中へ浮かび上がるシャボン玉に変える変換が使われている
個人画像から作るカスタム動画
- ユーザーが自分の写真をアップロードし、簡単なテキストを入力すると、Movie Genがパーソナライズ動画を生成する
- 生成結果は人物のアイデンティティと動作を保つ形で構成される
- 例のシーンには複数の環境と行動が含まれる
- 虹色の壁紙がある実験室で実験する男性
- 木製パネルの部屋で、イーゼル上のキャンバスに絵を描く女性
- 男性とビーグル犬が裏庭のパティオでセルフィーを撮るシーン
- 砂漠でつば広帽子と茶色いコートを身に着けた男性がお茶を持っているシーン
- 古い西部の町で白馬に乗るカウガール
- ロサンゼルスのルーフトップでレコードを回す女性DJとチーター
動画に合わせたサウンド生成
- Movie Genはテキスト入力で効果音、BGM、サウンドトラック全体を作成または拡張できる
- 生成されるサウンドは、動画のトーン、リズム、スタイルを反映するよう設計されている
- 入力例では、具体的な音と音楽の雰囲気をまとめて指定している
- 崖と人物に雨が降り注ぎ、BGMが再生されるシーン
- 木の葉がカサカサ鳴り、枝が折れる音とオーケストラ音楽
- ATVのエンジンが轟音を立てて加速し、ギター音楽が一緒に流れるシーン
- スケートボードの車輪が回り、コンクリートに着地する衝撃音
- 畏敬の念を呼び起こすオーケストラ曲
- 口笛の後に鋭い爆発音と大きなcrackling音
クリエイター・エンターテインメント業界との協業
- MetaはCreative Industry Feedback Programを通じて、受賞歴のある制作会社Blumhouseと協業した
- BlumhouseはMovie Genの公開デビュー前に動画を作る映画制作者を選定した
- クリエイターはAIメディアツール群を使って、興味深い、または有用だと考える成果物を作るよう依頼された
- 監督Aneesh Chagantyの動画タイトルは
"i h8 ai"
公開例と参考資料
- Metaは、クリエイターたちがMovie Genでストーリーテリングを変えているとしている
- Instagramの例には次のアカウントとプロンプトが含まれる
- @paigepiskin: 小さなふわふわの猫顔タランチュラを持つ手、犬を灰色の赤ちゃんドラゴンに変える編集
- @ka5sh: ピンクのピエロ靴を履いた緑色の漫画風エイリアン、人物を赤いバケットハットをかぶった緑のエイリアンに変える編集
- @girls: 秋の並木道を歩く少女、ハロウィン飾りが掛かった壁の前でコーヒーを飲む2人の女性
- @memezar: 赤ちゃんカバと筋肉質のゴリラのボクシング試合
- @ravivora: 前景に濃い霧を追加、クラゲに囲まれて水面へ上がってくる女性
- 追加資料としてMovie Gen研究論文が提供されており、MetaはAIメディア生成で新たな業界ベンチマークを打ち立てたとしている
- 関連記事として、エンターテインメント業界とクリエイターの協業およびAIベースのコンテンツ制作時代ブログがリンクされている
1件のコメント
Hacker News の意見
テキストで動画を編集する機能がいちばん面白い。CGI 予算のないインディー映画ですぐに使えそう。
映画館のシーンのように、まずラウンジチェアで撮影しておき、あとから映画館らしく見えるように変える、といったことが可能になる。
うまく使えばインディー映画や短編の品質は上がるだろうし、限界は創造力だけだ。
どうせモデルはインディーの出演者より優れた俳優たちで学習されているはずだから。
これは映画ではなくクリップだ。ストック写真・動画業界は間違いなく心配しているだろうし、これらのモデルが自分たちの作品で学習された可能性は100%なので、訴訟も起こすだろう。
この技術がいつか映画を作るとしても、テキスト・画像・音楽モデルが作るものと同じように、これまで作られてきたすべての平均値になって、ものすごく平凡な結果になりそうだ。
その後、シーンを調整し続けて保存し、次のシーンへ進める。AIがアニメーションをつなげられるなら、さらに進化したときに、与えられたモデルを忠実に再現できない理由もなさそうだ。
長編が出ているのか、制作中なのかは分からない。
言いたくはないが、今の状態では、AIがこのまま成長し続ければ、テック企業があらゆる場所に浸透し、強大になる可能性が高い。
なぜ実質的に静的HTMLのウェブサイトがこんなに多いのに、スマートフォンをカクつかせるのか分からない。
動画は格好よく見えるが、スマホが2秒ごとに止まると、関連する記事を楽しく読めない。
ページをスクロールするとテキストの一部が消えたり飛び出したりするが、スクロール連動アニメーションでもなく、ほとんどランダムに近い。何かがブラウザのレンダリングループをブロックして、実際のテキスト描画が追いついていない感じだ。こんな単純なページならあり得ないバグだが、ここでReactを使っているなら、もはや何が起きても不思議ではないと思う。
人間は視覚入力と視覚的娯楽に過度に依存している。だが、そうしたビジュアルはますます無意味に感じられ、すべてファストフードのようなゴミコンテンツに見える。
未就学児でも想像できるものなら何でも数秒で作れるようになったからといって、より良くなったり実際の価値が生まれたりするようには思えない。もしかすると、まさにそれがこの技術の価値なのかもしれない。映像で物語を想像する映画のようなものを、完全に忘れてしまっていい時代が来るのかもしれない。もう誰も気にしなくなるだろうから。
それなのに人々がお金を払うなんて理解できない。
何年も前から、生成コンテンツの津波がオンライン上の本物の人間の声を飲み込むだろうと言ってきた。その結果、インターネットは娯楽以外の用途では事実上使えなくなるかもしれない。
グループチャットでも友人の一人がAIの回答を使っているのが見えるのに、他のメンバーは気づかず真面目に返している。こういうものが気持ち悪く感じられ、本能的にAIのゴミコンテンツを避けたくなる。もう次に何があるのか、どこへ行けばいいのか分からない。「人間」のフォーラムがインターネットのさらに奥まった片隅へ押しやられるのか、それとも皆がオフラインで会うことをより好むようになるのか、見当がつかない。
インターネットが死に、みんながより小さなコミュニティに戻るなら、それはそれほど最悪ではないと思う。そもそも私たちは地球規模のコミュニケーションに適応するよう進化していない。
たいていの人間が何を言っているか見たことがある? AIのほうが知的なことを言うなら、私は賛成だ。
最近はむしろオフラインで時間を過ごしたい。広告、注目集め、AIのゴミコンテンツがない、別のインターネット上の隠れ家はまだあるのだろうか?
すべての動画に、うまい表現は見つからないものの、すぐにそれと分かる生成AI特有の光沢感がある。また、いちばん目立つのはエッジ付近で起きる微細な変化で、ぼやけたアーティファクトを生み出している
人々がAIコンテンツを予期していないときは、それがAIだと気づく可能性がずっと低くなることも、すでに示されている。油断していたら、この動画の大半を100%本物だと信じていたと思う
盗まれたコンテンツに十分なノイズを加えて、コンテンツ検出フィルターを回避しようとするパターンのリールが多い。コメントには詐欺サイトへのリンクがあり、「このコンテンツのIMDBページ」と表示されている
それでもエッジの問題は依然として大きい
平均的な消費者は画像や動画を比較するとき、そうした特徴をより好み、品質判断のヒューリスティックとして使っているように思える。以前のテキスト画像生成モデルと最新世代を比較し、あまり手が入っていない旧モデルは、最新モデルのようにキッチュで誇張された出力に偏っていなかったと主張する比較もあった
自分があまりに閉鎖的に見ているだけかもしれないが、いったい誰がこんなものを望んだのか、そして簡単にアクセスできるAIゴミ生成の結果を考えた人はいるのか?
すでにインターネットでは、どこを見るべきか知らなければ良質なコンテンツを見つけるのはほぼ不可能だ
うちの子どもたちは二人とも創造的な気質が強いのだが、AIのせいで創作で生計を立てられなくなるのではないかと恐れている。ただ最近は別の考えも浮かぶ。
私たちは何十年にもわたって、娯楽技術を改善するために何十億、もしかすると何兆ドルも費やしてきた。AIが想像できるあらゆる娯楽を作り出せるようになれば、そうした娯楽を退屈に感じ始めるかもしれない。そのときは、宇宙探査、物理学と化学の知識の拡張、病気との闘いのほうがはるかに面白いと判断するかもしれない。それらは現実だからだ。同じ観点から、人間が作った芸術も現実であるがゆえに、より面白くなる可能性がある
AIに熱狂している人たちは主にオンラインでしか見かけないが、うまい表現がないものの、本当にオンラインに深く浸かっていて、自分で芸術を作る技術や知識、能力がない人たちのように見える。誰かが「AI生成」と言った瞬間、芸術的には即座に興味が失われる。Photoshop やデジタルアートツールを使うこととは違う。人間の介入が最小限であることを利点として掲げるのは、それが芸術として提示された瞬間、私にとっては出発点から成り立たない。この技術に対するユートピア的なビジョンが実現するかは見守るが、新技術への息もつかせぬ楽観が、結局は広告中心の平板なMBA式のゴミに固まっていくのを何度も見てきたので、あまり楽観していない
Twitterで新しいAI生成コミュニティをたくさんフォローしているが、このコミュニティにはクリエイティブ業界の人が多い。広告業界で働いていたある人が、最近、有名ブランドの撮影について共有していた。サウンドステージ、俳優、音響、メイク、照明などが3日間セットされ、約25人が3日間働いた。しかしプリプロダクションとポストプロダクションまで含めると、その裏には約3か月の努力があった。編集、カラーグレーディング、音響編集、音楽などを考えればいい。創造的な子どもたちは、似たような成果物を自分たちだけで実現できる世界に生きることになるかもしれない。小さなチームで、1人はキャラクター、1人はオーディオ、1人は脚本を担当する、といった具合だ。数万ドルのレンタル機材や25人の専門家がいなくても、根気とAI生成ツールで頭の中のアイデアを実現できるようになる。この新しいツールは、今想像している以上に可能性を開いてくれると本気で信じている
AI生成作品は、人間生成作品の隣に居場所を見つけることになるだろう。むしろ、わずかな人間の才能が生む差を際立たせ、アート映画や優れた演技の市場を改善する可能性もある。危機にさらされているのは芸術ではなく、雑務だ。変わるのは、何百万人を雇っていた人間制作の駄作の規模が、数十人だけを雇うAI制作の駄作へ移るという点だ
これは本当にすごい。空間的・時間的一貫性が信じられないほどだ
予想される結果はこうだ。Hollywood のすべての脚本は今後、プリビズ映画と一緒に提出されるようになり、漫画をアニメーションに変換するコンバーターが登場し、はるかに多くの製品向けオンライン広告が作られるようになるだろう
その次は、この技術が停滞するのか、さらに上に行くのかを見守る必要がある
漫画をアニメーションに変えることはすでに存在している。広告、特にソーシャル・オンライン広告もすでに起きている