STARFlow-V: 正規化フローに基づくエンドツーエンド動画生成モデル

(starflow-v.github.io)

2 ポイント投稿者 GN⁺ 2025-12-03 | 1件のコメント | WhatsAppで共有

正規化フロー（normalizing flow）を用いて、テキスト・画像・動画入力から直接映像を生成する初の因果的動画生成器
エンドツーエンド学習、正確な尤度推定、**複数生成タスク（T2V/I2V/V2V）**を単一モデルで処理
Global-Local アーキテクチャ、Flow-Score Matching、動画認識型 Jacobi 反復により時空間一貫性と効率を向上
7B パラメータモデルで480p・16fps動画を生成し、70M テキスト-動画および400M テキスト-画像データで学習
正規化フローが拡散ベースモデルと同等の品質を達成し、高品質な自己回帰動画生成の可能性を示す

STARFlow-V 概要

STARFlow-V は正規化フローに基づく因果的動画生成モデルで、拡散モデル並みの視覚品質を達成
- エンドツーエンド学習、正確な尤度推定、複数生成タスク対応を同時に提供
拡散モデルが主導していた動画生成領域で正規化フローの実用性を実証
テキスト-動画（T2V）、画像-動画（I2V）、動画-動画（V2V）生成をすべて単一構造で処理可能

コア設計と学習構造

モデルはDeep Autoregressive Block（全体時系列推論）とShallow Flow Block（フレーム内の詳細表現）で構成
- 前者は時空間の潜在空間で長期依存性を捉える
- 後者は各フレームの局所的な詳細構造をモデリング
Flow-Score Matchingを通じて学習した因果的軽量ノイズ除去器が出力の一貫性を向上
学習目標は正確な尤度推定とFlow-Score Matchingの二重目的構造

主な技術的貢献

Global-Local アーキテクチャ
- グローバルな因果 Transformer ブロックが長期時空間依存を処理
- フレーム単位の浅いフローブロックが局所的な詳細描写を担当
- ピクセル単位の自己回帰モデルの累積誤差問題を緩和
Flow-Score Matching ベースのノイズ除去
- モデルの確率分布勾配（スコア）を予測する因果的ニューラルノイズ除去器を並行学習
- 非因果的または不完全な外部デノイザーなしで単一ステップで精緻化可能
動画認識型 Jacobi 反復
- 非線形システムの解法として生成プロセスを再構成し、並列潜在更新を実行
- 隣接フレームの時系列情報を活用した初期化とパイプライン実行で速度向上

モデル仕様

学習データ: 70M テキスト-動画ペア、400M テキスト-画像ペア
モデルサイズ: 7B パラメータ、出力解像度480p、フレームレート16fps
正規化フローの可逆性により、構造変更や再学習なしで様々な生成タスクを実行

生成結果と比較

テキスト-動画: 自然光、実写風、マクロなど様々なシーンを高品質で生成
画像-動画: 入力画像を基に時間的一貫性を維持しつつ動画を拡張
動画-動画: オブジェクト追加、色変換、スタイル変更、インペインティングなどの多様な変形を実行
長尺動画生成: 10〜30秒の長さの映像もセグメント単位で自己回帰方式で生成
比較実験: NOVA、WAN-Causal と比較して、視覚的忠実度と時間的一貫性で優れた結果

限界と失敗事例

複雑な物理的相互作用や高速な動作では品質が低下することがある
原因として学習リソースの制約、低品質データ、後続の微調整（SFT、RL）の欠如が示される
例: 犬が毛を払う場面や、ヤギが跳ぶ場面などで不自然な動きが観察

研究的意義

STARFlow-V は高品質な自己回帰動画生成に正規化フローが適していることを初めて実証
拡散モデル中心の動画生成研究に新たな代替アプローチを提示
ワールドモデル構築の有望な研究経路として評価される

1件のコメント

GN⁺ 2025-12-03

Hacker Newsの意見

Appleも動画理解モデルを持っている
視覚障害者として、AIは私の人生を完全に変えてくれた。今回のモデルでアクセシビリティ機能がどう進化するのか本当に楽しみだ
- こういう話はニュースの見出しではなかなか見かけないので、本当にうれしいコメントだ
- 数年前には聴覚障害のある親のために、赤ちゃんの泣き声を検知して通知する機能も追加されていた
- 質の低いコメントかもしれないが、心から祝福したいし、うれしく感じた
- AIがどのように人生を変えたのか、具体的に共有してもらえたら気になる
- めったにないAIが人々に実際に役立っている良い話なのでうれしい
Appleのライセンスは非商用研究用途のみに制限されており、オープンソースの定義には合致しない
なので、「オープンソース」よりは「weights available」と呼ぶほうが正確だと思う
- 実際にはまだweightsすら公開されていない
  米国法では、モデルの重みは創作物ではなく機械生成物なので著作権はないと見なされる
  だから私はこうした無意味なライセンスは無視して自由に使うと思う
「オープンウェイトモデル」という概念は、まるで**『オープンソースのWindowsマシン語版』**のようで少し居心地が悪い
AppleのライセンスはClickwrap MITの形で、改変と再配布の権利がある点はまだ救いだ
- いい比喩だ。さらに広げるなら、「クローズドなマシン語」は典型的なSaaSモデルに近い
  それでもバイナリを直接使えるのは、SaaSだけ提供されるよりはましだと思う
- ローカルで実行できる点が重要だ
  オープンウェイトは再学習やdistillationが可能という点で、単なる実行ファイルとは異なる
- おそらくコードライセンスとモデルライセンスを混同したのだと思う
テキストから動画への例を見たが、正直そこまで印象的ではなかった
昔のWill Smithの麺動画を思い出した。私が何か見落としているのだろうか？
- 最新技術と比べると2年ほど遅れて見える
  それでも、研究者が実験できるよう公開した点には意味がある
- Will Smithのスパゲッティ動画を見返せば分かるが、今回の例はそれよりずっと良い
  完璧ではないが、公開されているモデルの中では最も進んだ水準かもしれない
  ただし、ライセンスが十分に「オープン」かどうかは疑問だ
- 私も同じ印象だった。コップの液体が止まっているのに増え続けるなど、不自然な部分があった
このプロジェクトは研究としては新しい試みと可能性を示したが、
製品の観点では計算資源の制約がはっきり見える
CFOがCEOのMLインフラ投資判断を止めたという報告とも一致している
JGの退社、AI部門の大規模再編、Timの2026年退任説などを踏まえると、
非ML陣営が社内政治で勝ったように見える
それでもアプローチ自体は興味深いので、誰かがこれを土台に役立つ何かを作ってくれることを願う
論文によれば、このモデルはdiffusion動画モデルの累積誤差の問題を解決しようとする研究用モデルだ
潜在空間を因果的（causal）な構造に設計して一貫性を高めたという
7B規模のモデルとしては結果はかなり良い
もしAppleがwanやveoクラスのモデルを出すなら、本当に洗練されたデータで学習しているのだろうと思う
STARFlow-Vは96基のH100 GPUで約2,000万本の動画を学習したという
ただし、学習期間は明記されていない
- Apple IntelligenceがNvidia GPUとLinuxで学習されている点は興味深い
  レポジトリの例がMacでも推論可能なのか気になる
タイトルが間違っている。モデルはまだ公開されておらず、リンク先にもそのような記述はない
なぜ編集後のタイトルを使ったのか疑問だ
モデルは良さそうに見えるが、Appleがどんなユースケースを想定しているのか気になる
単に研究者の関心事なのかもしれないし、大企業の研究の方向性が上から降りてくるものなのかも分からない
- AppleはPixarやDisneyとのつながりから映像・アニメーション分野に強い
  Jobs時代から続く縁も多い
- おそらくiPhoneで撮った動画に生成AIエフェクトを追加する用途だろう
  TikTokやInstagramもいずれこうした機能を入れるだろうが、Appleは自前で提供したいのだと思う
  個人的にはSnapchatの買収が良い戦略だと思う
レポジトリには「Pretrained checkpoints will be released soon」と書かれている
つまり、現時点ではまだオープンウェイトではない
実際に重みが公開されてはじめて、本当のオープンモデルになる
「Soon」がいつなのかは分からない

STARFlow-V: 正規化フローに基づくエンドツーエンド動画生成モデル

STARFlow-V 概要

コア設計と学習構造

主な技術的貢献

モデル仕様

生成結果と比較

限界と失敗事例

研究的意義

関連記事

1件のコメント

Hacker Newsの意見