- Stable Video Diffusion は、画像モデルである Stable Diffusion をベースにした初の生成動画モデル
- 研究用プレビューとして提供され、この最新の生成 AI 動画モデルは、さまざまな種類のモデルを作る取り組みにおける重要な一歩
- コードは GitHub リポジトリで、モデルをローカルで実行するために必要な重みは Hugging Face ページで確認可能
さまざまな動画アプリケーションに適用可能
- 動画モデルは、単一画像からの多視点合成を含むさまざまなダウンストリームタスクに容易に適用可能
- Stable Diffusion を中心に構築されたエコシステムと同様に、この基盤の上に構築・拡張するさまざまなモデルを計画中
- テキスト・トゥ・ビデオのインターフェースを備えた新しい Web 体験の Waitlist に本日から登録可能
性能面でも競争力あり
- Stable Video Diffusion は、毎秒 3〜30 フレームの間でカスタマイズ可能なフレームレートで、14 フレーム版と 25 フレーム版を生成できる 2 つの image-to-video モデルとして公開
- 基本的な形で公開された時点で、外部評価により、これらのモデルがユーザー選好調査で先行するクローズドモデルを上回ることが示された
研究専用
- 最新の進展に合わせてモデルを更新し、フィードバックを取り入れることに意欲的である一方、現段階では実世界や商用アプリケーション向けではないことを強調
- 安全性と品質に関する洞察やフィードバックは、最終リリースに向けてモデルを洗練させるうえで重要
AI モデルの継続的な拡張
- Stable Video Diffusion は、画像、言語、音声、3D、コードを含むさまざまなモダリティにまたがるオープンソースモデル群への誇るべき追加
- Stability AI の人間知能の増幅への取り組みを示すポートフォリオ
GN⁺の見解
- この記事で最も重要なのは、Stable Video Diffusion の公開であり、これは AI 技術の進歩を示し、さまざまな分野での応用可能性を開くもの
- 研究者や開発者に新たなツールを提供し、創造的な動画生成を可能にするこの技術は、広告、教育、エンターテインメントなど多くの分野で興味深い応用が期待される。
2件のコメント
LLMにStable Diffusion Momentがやってくる
このStable Diffusion Momentは、今度はVideoにもやってくるのでしょうか? 最近の海外AIスタートアップで資金が集まっているのは、やはりビデオ分野のようです
Hacker Newsの意見
動画ページの下部に2羽の鳥(ブルージェイ)が出てきて、背景にはCNタワーのように見える同じ建物が2つある。CNタワーはトロントの主要なランドマークで、トロントの野球チームはBlue Jaysという名前を持っている。このタワーは都心の主要なスポーツ競技場の近くにある。テキストから画像への変換の仕組みはおおまかに理解していて、「ブルージェイ」が「トロント」や「CNタワー」と近いベクトル空間にあるだろうというのは理にかなっていると思う。画像から動画へのスケールと速度の向上は印象的だが、画像生成モデルがどれほど有能かを見ると、編集や反復作業の能力が欠けているために限定的だと感じる。たとえば「写真の中の自転車を左に移動させろ」のようなプロンプトを使ってモデルに反復作業をさせるソリューションがあるのか気になる。この分野は非常に速いペースで進歩していると感じる。
昨年の機械学習分野の進歩の速さは驚異的だった。ControlNetが動画に適切に適用されれば、人々がこの技術をどう活用するのか楽しみだ。動画をゼロから生成するのも素晴らしいが、この技術の本当の有用性は時間的一貫性にある。安定した動画を得るには、通常かなり多くの手作業による後処理が必要になる。
「非商用」モデルライセンスがどう執行できるのか、依然として疑問だ。ソフトウェアライセンスはソフトウェアの再配布を規制するが、それによって生成された成果物を規制するわけではない。たとえば、GIMPで生成された画像がGPLライセンスになるわけではない。
この分野の動きは非常に速い。瞬きをしている間に新しい論文が出てくる。人間の学習速度には驚かされる。これをダウンストリームタスクに使うのは非常に興味深い。このモデルとanimatediffを統合するのがどれほど簡単なのか気になる。また、m3デバイスでベンチマークを実行できるのか、こうした拡散推論と開発を動かすためにm3 proを使う価値があるのかも知りたい。
技術的進歩として魅力的な飛躍だ。ancestral samplersとnon-ancestral samplersの違いを考えさせられる。たとえばEuler方式はやや決定論的で、サンプリングステップを増やしても出力は変わらないが、Euler Ancestral方式は各ステップにノイズを追加することでより多様性を生み出す一方、よりランダム/確率的になる。動画を生成するには、サンプラーが前のフレームに大きく依存しながら、ある種のサブプロンプトを注入する必要があるのではないかと思う。たとえば「特定のオブジェクトを左に5度回転させろ」などだ。別のコメント投稿者が使っていた「時間的一貫性(temporal consistency)」という表現が気に入った。
学習データからすべてのカットやフェードを取り除けば結果が改善するはずだ、というのは理にかなっている。研究論文の背景セクションでは「時間的畳み込みレイヤー(temporal convolution layers)」に言及しているが、これが何なのか説明できる人はいるだろうか。動画を構成する画像の間の時間的状態を表すために、どのような種類の学習データが入力されるのか、それとも別の意味なのか気になる。
とてもクールな進歩だ。数か月前にReplicateでいくつかの「動画」生成モデルを試してみたが、とても良い結果が得られた一方で、出来上がった動画は前のフレームをプロンプトとして使って作られたことが明らかだった。この技術は実際に、より高次の文脈を持つものを生み出せるように見える。わずか半年少しでこれほどの進歩を見るのは驚きだ。
Stability.aiには、取締役会が理にかなっているか確認してほしい。
この技術を試してみるのがとても楽しみだ。最近行ったいくつかの実験を紹介する。
静止画と同じように、微妙で意図しない欠陥を観察するのは非常に興味深い。たとえば、カウボーイハットをかぶった男は今にも窒息しそうに見えるし、列車の動画では、列車が氷の上をスケートするように移動している一方で、線路が広すぎるように見える。