- FLUX.2 は、実際の クリエイティブワークフロー のための高品質な画像生成モデルで、複数の参照画像間で キャラクター・スタイルの一貫性 を維持しながら、テキスト処理とブランドガイドライン準拠機能をサポート
- 最大 4メガピクセル解像度 で細密な画像編集が可能で、照明・レイアウト・ロゴなどの視覚要素を安定して制御
- オープンコア戦略 を通じてオープンウェイトモデルとプロダクション級APIを併せて提供し、FLUX.1で構築されたオープンエコシステムをFLUX.2段階へ引き上げる
- マルチリファレンス対応、精緻なタイポグラフィレンダリング、向上したプロンプト処理、現実ベースの知識反映 などの主要機能が新たに追加
- モデル群は pro, flex, dev, klein, VAE で構成され、オープンウェイトと商用APIの両方を提供
- Black Forest Labs は、オープンな研究と商用インフラを結び付け、視覚知能のオープンな発展 を目指す
FLUX.2 概要
- FLUX.2 は単なるデモ用ではなく、実際の制作環境 のための画像生成モデル
- 複数の参照画像をもとにキャラクター・スタイルの一貫性を維持
- 構造化されたプロンプトに従い、複雑なテキストを読み書きできる
- ブランドガイドライン、照明、レイアウト、ロゴを安定して処理
- 最大 4MP解像度 で、細部描写と一貫性を保った画像編集をサポート
Black Forest Labs のオープンコア哲学
- 視覚知能は 研究者・クリエイター・開発者がともに発展させるべきだ という原則を提示
- オープンウェイトモデル と 商用グレードのAPIエンドポイント を並行して提供
- オープンモデルは実験とコスト削減を促進し、透明性を高める
- 2024年の設立以降、FLUX.1 [dev] と FLUX.1 Kontext [pro] を通じてオープンイノベーション基盤を構築
- FLUX.1 [dev] は世界で最も人気のあるオープン画像モデルとして言及されている
- FLUX.1 Kontext [pro] は Adobe、Meta など主要チームで利用されている
FLUX.1 から FLUX.2 へ
- FLUX.1 が クリエイティブツールとしての可能性 を示したなら、FLUX.2 は 本番ワークフローの革新 に焦点を当てる
- 精度・効率・制御性・現実感 を強化し、画像生成の経済性を大きく改善
- 結果として クリエイティブインフラの中核構成要素 として位置付けられる見込み
主な機能 (What’s New)
- マルチリファレンス対応: 最大10枚の画像を同時に参照し、キャラクター・製品・スタイルの一貫性を維持
- 細密なディテールと写実性: 製品撮影、ビジュアライゼーション、写真レベルの結果に適する
- テキストレンダリング改善: 複雑なタイポグラフィ、インフォグラフィック、UIモックアップなどで可読性が向上
- プロンプト処理の強化: 多段構造のプロンプトと組み合わせ制約を正確に反映
- 現実ベースの知識拡張: 照明・空間ロジックに基づく一貫したシーン構成
- 高解像度編集: 最大4MP解像度で柔軟な入出力比率をサポート
FLUX.2 製品群
- FLUX.2 [pro]
- クローズドな最上位モデルと競合する画像品質、プロンプト準拠性、視覚的忠実度を備える
- 高速な生成速度と低コストが特徴で、BFL Playground・API・パートナープラットフォームで提供
- FLUX.2 [flex]
- ステップ数・ガイダンススケールなどのパラメータを直接調整し、品質・速度・テキストレンダリングを最適化できるモデル
- 精密なタイポグラフィ表現に特に強い
- FLUX.2 [dev]
- 32B のオープンウェイトモデルで、テキスト→画像と複数入力画像編集を単一チェックポイントでサポートする、現存最強クラスの公開モデル
- Hugging Face で重みを提供し、NVIDIA・ComfyUI と協業した FP8 最適化実装を含む
- FAL・Replicate・Runware・Verda・TogetherAI・Cloudflare・DeepInfra などでAPIとして利用可能
- FLUX.2 [klein] (予定)
- Apache 2.0 オープンソースモデルとして、FLUX.2 をベースにサイズ蒸留した軽量・高性能形態で提供予定
- FLUX.2 – VAE
- 学習容易性・品質・圧縮率をバランスよく最適化した新しい VAE で、FLUX.2 バックボーンの中核構成要素
- Hugging Face で Apache 2.0 ライセンスにて提供
性能と価値
- FLUX.2 モデル群は 最新の画像生成品質 を 競争力のある価格 で提供
- オープンウェイトモデルの中で FLUX.2 [dev] は、テキスト-画像生成、単一・複数参照編集において すべてのオープン代替手段を上回る性能 を記録
- すべてのモデルは 責任ある開発原則 に従って、リリース前後を通じて管理される
技術構造 (How It Works)
- 潜在フローマッチング(latent flow matching) アーキテクチャをベースに、画像生成と編集を1つの構造に統合
- Mistral-3 24B ビジョン言語モデル と Rectified Flow Transformer を組み合わせる
- VLM は現実知識と文脈理解を提供
- Transformer は空間関係、材質特性、構成ロジックを処理
- 最大10枚の参照画像を組み合わせて新しい結果を生成可能
- モデルの潜在空間を新たに学習し、学習性・品質・圧縮率の三重課題(trilemma) を改善
追加資料
今後の方向性 (Into the New)
- FLUX.2 は 知覚・生成・記憶・推論を統合するマルチモーダルモデル へ進む段階
- 視覚知能インフラの基盤技術 として、世界を認識し理解する方法を変えていくことを目指す
- 現在、Freiburg とサンフランシスコで人材を採用中
1件のコメント
Hacker Newsの意見
最近は新しいモデルがあまりにも頻繁に出てくるので、GenAI比較サイトを更新するのがほとんどシーシュポスのように感じる
それでも新しく出た Flux 2 Pro Editingモデル の結果を掲載した
結果ページで確認できる
このモデルはBFLのKontextよりやや高いスコアを取り、全12モデル中ちょうど中位の6点だった
近いうちに、より細かい評価のための 数値指標 を追加する予定
Flux 2 Pro、Nano Banana Pro、Kontextだけを比較したいならこのリンクを見ればよい
ちなみにBFLは、より精密な編集のための JSON構造 をサポートしているようなので、それを活用すれば精度がさらに上がるのか気になる
FluxとGemini Pro 3が同じ点数なのはベンチマークの品質を下げている
OpenAIのモデルは固有のタッチが強すぎてスタイルマッチングが弱く、Fluxはスタイルによって性能が変わる
Fluxは複数スタイルを平均化するような訓練を避けようとしていたが、それは視覚的に魅力的な画像を作るという目標と衝突する
結局、スタイルの一貫性の問題は当分続きそうだ
Seedreamも印象的なので、次のバージョンではGoogleと競える水準になりそうだ
画像生成はほとんど 解決済みの問題 のように感じる
新モデルは中位レベルにとどまり、オープンソースも中国モデルほど開放的ではない
Fluxの画像品質は依然として プラスチック肌、人工的な質感 に見える
技術的には合格でも、実際のワークフローではFluxを選ばないと思う
美的感覚に欠けるデータチームの問題かもしれない
Googleと中国エコシステムの間に挟まれたBFLは難しい立場にある
RunwayML、PikaLabs、LumaLabsのような他のメディアモデル企業も同様の困難に直面している
BFLは最近大きな投資を受けたが、それでも ハイパースケーラーとの競争 は厳しそうに見える
新モデルが オープンウェイト版 としても公開されたのはうれしい
ただ、以前公開を予告していた SOTA動画モデル はどうなったのか気になる
YouTube動画でも言及されていたが、関連ページ(bfl.ai/up-next)は削除された
画像モデルの方が活用事例が多く、データセットもはるかに豊富だ
画像は動画の基盤であり、制御可能な要素もはるかに多い
画像モデルは素早いフィードバックと生産性を提供し、スタイル・ポーズ・一貫性の制御 など、まだ課題も多い
Midjourneyは美学面では圧倒的だが制御力が不足している
Fluxはプラスチックっぽく、Imagenは漫画風、OpenAIは古臭い感じだ
結局、美学・制御・再現性 のすべてで競争しなければならない
動画はこの作業の妨げになる
Flux 2 Pro を直接テストした(Replicateリンク)
Nano Bananaと比べると大きな差別化要素はなく、Flux 1.1 Proに対して 漸進的な改善 のレベルだ
Googleが価格を上げたりAPIを変えたりしたら代替がないが、BFLにはローカル実行の選択肢がある
ESRGANアップスケールのように不要なディテールが追加される(テストリンク)
FLUX.1 Pro Kontext は依然として芸術表現と 指示理解力 に優れている
Nano Banana比較ブログでも確認できる
FLUX.2 [dev] はRTX GPUでfp8最適化版としてローカル実行できる
オープンウェイトを維持している点は良いが、モデルサイズが12Bから32Bに増え、ローカル利用の負担が大きい
distill版に期待している
テキストエンコーダが48GB、生成モデルが64GBで、合計100GB超となる
ローカルユーザーにとって参入障壁 が大きい
今回のバージョンのテキストエンコーダは Mistral-Small-3.2-24B-Instruct-2506 で、以前のCLIP/T5の組み合わせより優れているがサイズが大きい
Apache 2.0でdistillされたモデルを待ってから出していれば、Nano Bananaとの差別化がもっと 明確 になっていたかもしれない
価格体系も独特だ — 入力はMPあたり$0.015、出力は最初のMPが$0.03、その後はMPあたり$0.015
Nano Banana Proに 競合相手 が現れたのは歓迎したい
価格競争を維持する助けになる
Google、OpenAI、Claudeはいずれも購読できない
ちなみに FLUX.2-DEVオープンソース版は商用利用不可 だ
ライセンス全文
「family guy cyberpunk 2077」というプロンプトでNano Banana ProとFlux 2 Proを比較したところ、
Googleモデルはゲームシーンにより適しており、Fluxはあまりにも 現実的すぎる 感じだった
Flux 2 Proにも同様の傾向が見られた
ただしLoRAエコシステムとチューニングに時間をかければ、Flux 1 Devは依然として 創造的なスタイリング に強い
18GB 4bit quant 版がdiffusersで提供されており、低VRAM環境 でも実行可能