- 正規化フロー(normalizing flow)を用いて、テキスト・画像・動画入力から直接映像を生成する初の因果的動画生成器
- エンドツーエンド学習、正確な尤度推定、**複数生成タスク(T2V/I2V/V2V)**を単一モデルで処理
- Global-Local アーキテクチャ、Flow-Score Matching、動画認識型 Jacobi 反復により時空間一貫性と効率を向上
- 7B パラメータモデルで480p・16fps動画を生成し、70M テキスト-動画および400M テキスト-画像データで学習
- 正規化フローが拡散ベースモデルと同等の品質を達成し、高品質な自己回帰動画生成の可能性を示す
STARFlow-V 概要
- STARFlow-V は正規化フローに基づく因果的動画生成モデルで、拡散モデル並みの視覚品質を達成
- エンドツーエンド学習、正確な尤度推定、複数生成タスク対応を同時に提供
- 拡散モデルが主導していた動画生成領域で正規化フローの実用性を実証
- テキスト-動画(T2V)、画像-動画(I2V)、動画-動画(V2V)生成をすべて単一構造で処理可能
コア設計と学習構造
- モデルはDeep Autoregressive Block(全体時系列推論)とShallow Flow Block(フレーム内の詳細表現)で構成
- 前者は時空間の潜在空間で長期依存性を捉える
- 後者は各フレームの局所的な詳細構造をモデリング
- Flow-Score Matchingを通じて学習した因果的軽量ノイズ除去器が出力の一貫性を向上
- 学習目標は正確な尤度推定とFlow-Score Matchingの二重目的構造
主な技術的貢献
- Global-Local アーキテクチャ
- グローバルな因果 Transformer ブロックが長期時空間依存を処理
- フレーム単位の浅いフロー ブロックが局所的な詳細描写を担当
- ピクセル単位の自己回帰モデルの累積誤差問題を緩和
- Flow-Score Matching ベースのノイズ除去
- モデルの確率分布勾配(スコア)を予測する因果的ニューラルノイズ除去器を並行学習
- 非因果的または不完全な外部デノイザーなしで単一ステップで精緻化可能
- 動画認識型 Jacobi 反復
- 非線形システムの解法として生成プロセスを再構成し、並列潜在更新を実行
- 隣接フレームの時系列情報を活用した初期化とパイプライン実行で速度向上
モデル仕様
- 学習データ: 70M テキスト-動画ペア、400M テキスト-画像ペア
- モデルサイズ: 7B パラメータ、出力解像度480p、フレームレート16fps
- 正規化フローの可逆性により、構造変更や再学習なしで様々な生成タスクを実行
生成結果と比較
- テキスト-動画: 自然光、実写風、マクロなど様々なシーンを高品質で生成
- 画像-動画: 入力画像を基に時間的一貫性を維持しつつ動画を拡張
- 動画-動画: オブジェクト追加、色変換、スタイル変更、インペインティングなどの多様な変形を実行
- 長尺動画生成: 10〜30秒の長さの映像もセグメント単位で自己回帰方式で生成
- 比較実験: NOVA、WAN-Causal と比較して、視覚的忠実度と時間的一貫性で優れた結果
限界と失敗事例
- 複雑な物理的相互作用や高速な動作では品質が低下することがある
- 原因として学習リソースの制約、低品質データ、後続の微調整(SFT、RL)の欠如が示される
- 例: 犬が毛を払う場面や、ヤギが跳ぶ場面などで不自然な動きが観察
研究的意義
- STARFlow-V は高品質な自己回帰動画生成に正規化フローが適していることを初めて実証
- 拡散モデル中心の動画生成研究に新たな代替アプローチを提示
- ワールドモデル構築の有望な研究経路として評価される
1件のコメント
Hacker Newsの意見
Appleも動画理解モデルを持っている
視覚障害者として、AIは私の人生を完全に変えてくれた。今回のモデルでアクセシビリティ機能がどう進化するのか本当に楽しみだ
Appleのライセンスは非商用研究用途のみに制限されており、オープンソースの定義には合致しない
なので、「オープンソース」よりは「weights available」と呼ぶほうが正確だと思う
米国法では、モデルの重みは創作物ではなく機械生成物なので著作権はないと見なされる
だから私はこうした無意味なライセンスは無視して自由に使うと思う
「オープンウェイトモデル」という概念は、まるで**『オープンソースのWindowsマシン語版』**のようで少し居心地が悪い
AppleのライセンスはClickwrap MITの形で、改変と再配布の権利がある点はまだ救いだ
それでもバイナリを直接使えるのは、SaaSだけ提供されるよりはましだと思う
オープンウェイトは再学習やdistillationが可能という点で、単なる実行ファイルとは異なる
テキストから動画への例を見たが、正直そこまで印象的ではなかった
昔のWill Smithの麺動画を思い出した。私が何か見落としているのだろうか?
それでも、研究者が実験できるよう公開した点には意味がある
完璧ではないが、公開されているモデルの中では最も進んだ水準かもしれない
ただし、ライセンスが十分に「オープン」かどうかは疑問だ
このプロジェクトは研究としては新しい試みと可能性を示したが、
製品の観点では計算資源の制約がはっきり見える
CFOがCEOのMLインフラ投資判断を止めたという報告とも一致している
JGの退社、AI部門の大規模再編、Timの2026年退任説などを踏まえると、
非ML陣営が社内政治で勝ったように見える
それでもアプローチ自体は興味深いので、誰かがこれを土台に役立つ何かを作ってくれることを願う
論文によれば、このモデルはdiffusion動画モデルの累積誤差の問題を解決しようとする研究用モデルだ
潜在空間を因果的(causal)な構造に設計して一貫性を高めたという
7B規模のモデルとしては結果はかなり良い
もしAppleがwanやveoクラスのモデルを出すなら、本当に洗練されたデータで学習しているのだろうと思う
STARFlow-Vは96基のH100 GPUで約2,000万本の動画を学習したという
ただし、学習期間は明記されていない
レポジトリの例がMacでも推論可能なのか気になる
タイトルが間違っている。モデルはまだ公開されておらず、リンク先にもそのような記述はない
なぜ編集後のタイトルを使ったのか疑問だ
モデルは良さそうに見えるが、Appleがどんなユースケースを想定しているのか気になる
単に研究者の関心事なのかもしれないし、大企業の研究の方向性が上から降りてくるものなのかも分からない
Jobs時代から続く縁も多い
TikTokやInstagramもいずれこうした機能を入れるだろうが、Appleは自前で提供したいのだと思う
個人的にはSnapchatの買収が良い戦略だと思う
レポジトリには「Pretrained checkpoints will be released soon」と書かれている
つまり、現時点ではまだオープンウェイトではない
実際に重みが公開されてはじめて、本当のオープンモデルになる
「Soon」がいつなのかは分からない