FLUX.2: 次世代ビジュアル生成・編集モデル

(bfl.ai)

2 ポイント投稿者 GN⁺ 2025-11-27 | 1件のコメント | WhatsAppで共有

FLUX.2 は、実際の クリエイティブワークフロー のための高品質な画像生成モデルで、複数の参照画像間で キャラクター・スタイルの一貫性 を維持しながら、テキスト処理とブランドガイドライン準拠機能をサポート
最大 4メガピクセル解像度 で細密な画像編集が可能で、照明・レイアウト・ロゴなどの視覚要素を安定して制御
オープンコア戦略 を通じてオープンウェイトモデルとプロダクション級APIを併せて提供し、FLUX.1で構築されたオープンエコシステムをFLUX.2段階へ引き上げる
マルチリファレンス対応、精緻なタイポグラフィレンダリング、向上したプロンプト処理、現実ベースの知識反映 などの主要機能が新たに追加
モデル群は pro, flex, dev, klein, VAE で構成され、オープンウェイトと商用APIの両方を提供
Black Forest Labs は、オープンな研究と商用インフラを結び付け、視覚知能のオープンな発展 を目指す

FLUX.2 概要

FLUX.2 は単なるデモ用ではなく、実際の制作環境 のための画像生成モデル
- 複数の参照画像をもとにキャラクター・スタイルの一貫性を維持
- 構造化されたプロンプトに従い、複雑なテキストを読み書きできる
- ブランドガイドライン、照明、レイアウト、ロゴを安定して処理
最大 4MP解像度 で、細部描写と一貫性を保った画像編集をサポート

Black Forest Labs のオープンコア哲学

視覚知能は 研究者・クリエイター・開発者がともに発展させるべきだ という原則を提示
オープンウェイトモデル と 商用グレードのAPIエンドポイント を並行して提供
- オープンモデルは実験とコスト削減を促進し、透明性を高める
2024年の設立以降、FLUX.1 [dev] と FLUX.1 Kontext [pro] を通じてオープンイノベーション基盤を構築
- FLUX.1 [dev] は世界で最も人気のあるオープン画像モデルとして言及されている
- FLUX.1 Kontext [pro] は Adobe、Meta など主要チームで利用されている
広告

FLUX.1 から FLUX.2 へ

FLUX.1 が クリエイティブツールとしての可能性 を示したなら、FLUX.2 は 本番ワークフローの革新 に焦点を当てる
精度・効率・制御性・現実感 を強化し、画像生成の経済性を大きく改善
結果として クリエイティブインフラの中核構成要素 として位置付けられる見込み

主な機能 (What’s New)

マルチリファレンス対応: 最大10枚の画像を同時に参照し、キャラクター・製品・スタイルの一貫性を維持
細密なディテールと写実性: 製品撮影、ビジュアライゼーション、写真レベルの結果に適する
テキストレンダリング改善: 複雑なタイポグラフィ、インフォグラフィック、UIモックアップなどで可読性が向上
プロンプト処理の強化: 多段構造のプロンプトと組み合わせ制約を正確に反映
現実ベースの知識拡張: 照明・空間ロジックに基づく一貫したシーン構成
高解像度編集: 最大4MP解像度で柔軟な入出力比率をサポート

FLUX.2 製品群

FLUX.2 [pro]
- クローズドな最上位モデルと競合する画像品質、プロンプト準拠性、視覚的忠実度を備える
- 高速な生成速度と低コストが特徴で、BFL Playground・API・パートナープラットフォームで提供
FLUX.2 [flex]
- ステップ数・ガイダンススケールなどのパラメータを直接調整し、品質・速度・テキストレンダリングを最適化できるモデル
- 精密なタイポグラフィ表現に特に強い
広告
FLUX.2 [dev]
- 32B のオープンウェイトモデルで、テキスト→画像と複数入力画像編集を単一チェックポイントでサポートする、現存最強クラスの公開モデル
- Hugging Face で重みを提供し、NVIDIA・ComfyUI と協業した FP8 最適化実装を含む
- FAL・Replicate・Runware・Verda・TogetherAI・Cloudflare・DeepInfra などでAPIとして利用可能
FLUX.2 [klein] (予定)
- Apache 2.0 オープンソースモデルとして、FLUX.2 をベースにサイズ蒸留した軽量・高性能形態で提供予定
FLUX.2 – VAE
- 学習容易性・品質・圧縮率をバランスよく最適化した新しい VAE で、FLUX.2 バックボーンの中核構成要素
- Hugging Face で Apache 2.0 ライセンスにて提供

性能と価値

FLUX.2 モデル群は 最新の画像生成品質 を 競争力のある価格 で提供
オープンウェイトモデルの中で FLUX.2 [dev] は、テキスト-画像生成、単一・複数参照編集において すべてのオープン代替手段を上回る性能 を記録
すべてのモデルは 責任ある開発原則 に従って、リリース前後を通じて管理される

技術構造 (How It Works)

潜在フローマッチング(latent flow matching) アーキテクチャをベースに、画像生成と編集を1つの構造に統合
Mistral-3 24B ビジョン言語モデル と Rectified Flow Transformer を組み合わせる
- VLM は現実知識と文脈理解を提供
- Transformer は空間関係、材質特性、構成ロジックを処理
最大10枚の参照画像を組み合わせて新しい結果を生成可能
モデルの潜在空間を新たに学習し、学習性・品質・圧縮率の三重課題(trilemma) を改善

追加資料

今後の方向性 (Into the New)

FLUX.2 は 知覚・生成・記憶・推論を統合するマルチモーダルモデル へ進む段階
視覚知能インフラの基盤技術 として、世界を認識し理解する方法を変えていくことを目指す
現在、Freiburg とサンフランシスコで人材を採用中

1件のコメント

GN⁺ 2025-11-27

Hacker Newsの意見

最近は新しいモデルがあまりにも頻繁に出てくるので、GenAI比較サイトを更新するのがほとんどシーシュポスのように感じる
それでも新しく出た Flux 2 Pro Editingモデル の結果を掲載した
結果ページで確認できる
このモデルはBFLのKontextよりやや高いスコアを取り、全12モデル中ちょうど中位の6点だった
近いうちに、より細かい評価のための 数値指標 を追加する予定
Flux 2 Pro、Nano Banana Pro、Kontextだけを比較したいならこのリンクを見ればよい
ちなみにBFLは、より精密な編集のための JSON構造 をサポートしているようなので、それを活用すれば精度がさらに上がるのか気になる
- スコア体系は単純な合格/不合格よりも、0〜10の範囲のスケールに変わるとよいと思う
  FluxとGemini Pro 3が同じ点数なのはベンチマークの品質を下げている
- 比較は有用だが、スタイルの多様性 が不足している
  OpenAIのモデルは固有のタッチが強すぎてスタイルマッチングが弱く、Fluxはスタイルによって性能が変わる
  Fluxは複数スタイルを平均化するような訓練を避けようとしていたが、それは視覚的に魅力的な画像を作るという目標と衝突する
  結局、スタイルの一貫性の問題は当分続きそうだ
- 今は Googleが明確に先行している
  Seedreamも印象的なので、次のバージョンではGoogleと競える水準になりそうだ
  画像生成はほとんど 解決済みの問題 のように感じる
- サイトに誤字がある: s/sttae/state/g の修正が必要
- BFLに、GoogleやByteDance（SeeDream）のような巨大企業と引き続き競争する 体力が残っているのか 疑問だ
  新モデルは中位レベルにとどまり、オープンソースも中国モデルほど開放的ではない
  Fluxの画像品質は依然として プラスチック肌、人工的な質感 に見える
  技術的には合格でも、実際のワークフローではFluxを選ばないと思う
  美的感覚に欠けるデータチームの問題かもしれない
  Googleと中国エコシステムの間に挟まれたBFLは難しい立場にある
  RunwayML、PikaLabs、LumaLabsのような他のメディアモデル企業も同様の困難に直面している
  BFLは最近大きな投資を受けたが、それでも ハイパースケーラーとの競争 は厳しそうに見える
新モデルが オープンウェイト版 としても公開されたのはうれしい
ただ、以前公開を予告していた SOTA動画モデル はどうなったのか気になる
YouTube動画でも言及されていたが、関連ページ（bfl.ai/up-next）は削除された
- スタートアップとして、動画ではなく画像モデル に集中する方向へピボットした
  画像モデルの方が活用事例が多く、データセットもはるかに豊富だ
- 聞いた話では、動画モデルの訓練は 大規模な失敗 に終わり、プロジェクトは中止されたらしい
- 画像モデルは依然として 中核技術の軸 だ
  画像は動画の基盤であり、制御可能な要素もはるかに多い
  画像モデルは素早いフィードバックと生産性を提供し、スタイル・ポーズ・一貫性の制御 など、まだ課題も多い
  Midjourneyは美学面では圧倒的だが制御力が不足している
  Fluxはプラスチックっぽく、Imagenは漫画風、OpenAIは古臭い感じだ
  結局、美学・制御・再現性 のすべてで競争しなければならない
  動画はこの作業の妨げになる
Flux 2 Pro を直接テストした（Replicateリンク）
Nano Bananaと比べると大きな差別化要素はなく、Flux 1.1 Proに対して 漸進的な改善 のレベルだ
- プロンプトの一貫性は良くなったが、画像品質はより人工的に見える
- Flux 2プロンプトガイドは JSONプロンプト と HEXカラー指定 を標準として推奨している
- プロンプトアップサンプリングを有効にすると推論力は向上するが、無効だと的外れな結果が出る
- Flux 2 APIは IP関連の敏感さ が高く、アップサンプリングを有効にしてはじめて通るケースがある（例）
- コストと速度はNano Bananaと似ているが、画像入力機能 を使うとFlux 2 Proの方が高い
- Flux 1.1と2の結果には 客観的な優劣がない
- Fluxを ローカルで実行できる可能性 があるだけでも利点がある
  Googleが価格を上げたりAPIを変えたりしたら代替がないが、BFLにはローカル実行の選択肢がある
- Flux 2 Proの 高解像度（4K） 出力が、かえって問題を起こすことがある
  ESRGANアップスケールのように不要なディテールが追加される（テストリンク）
- Flux 2 Dev版には IP検閲がない
FLUX.1 Pro Kontext は依然として芸術表現と 指示理解力 に優れている
Nano Banana比較ブログでも確認できる
FLUX.2 [dev] はRTX GPUでfp8最適化版としてローカル実行できる
オープンウェイトを維持している点は良いが、モデルサイズが12Bから32Bに増え、ローカル利用の負担が大きい
distill版に期待している
- Hugging Faceページを見ると、
  テキストエンコーダが48GB、生成モデルが64GBで、合計100GB超となる
  ローカルユーザーにとって参入障壁 が大きい
今回のバージョンのテキストエンコーダは Mistral-Small-3.2-24B-Instruct-2506 で、以前のCLIP/T5の組み合わせより優れているがサイズが大きい
Apache 2.0でdistillされたモデルを待ってから出していれば、Nano Bananaとの差別化がもっと明確になっていたかもしれない
価格体系も独特だ — 入力はMPあたり$0.015、出力は最初のMPが$0.03、その後はMPあたり$0.015
- Qwen-Image-Edit-2511が来週Apache 2.0で公開予定なので、BFLはそれに先んじて急いで出したように見える
- CLIPは事実上 意味のない選択 だった。重みを0にしても結果はほぼ同じだった
- CLIP+T5の組み合わせは当時多くの画像生成モデルが採用していた。おかしな選択ではなかった
- GTM戦略を優先したせいで、欧州市場が不利益 を被ったようだ
Nano Banana Proに 競合相手 が現れたのは歓迎したい
価格競争を維持する助けになる
- 香港のように 米国モデルの利用が制限される地域 では、こうした代替は特に重要だ
  Google、OpenAI、Claudeはいずれも購読できない
- 欧州企業 が活躍するのを見るのも良い
ちなみに FLUX.2-DEVオープンソース版は商用利用不可 だ
ライセンス全文
「family guy cyberpunk 2077」というプロンプトでNano Banana ProとFlux 2 Proを比較したところ、
Googleモデルはゲームシーンにより適しており、Fluxはあまりにも 現実的すぎる 感じだった
- Fluxは 写真中心のデータセット に合わせて調整されているため、芸術的スタイルには弱い
  Flux 2 Proにも同様の傾向が見られた
  ただしLoRAエコシステムとチューニングに時間をかければ、Flux 1 Devは依然として 創造的なスタイリング に強い
18GB 4bit quant 版がdiffusersで提供されており、低VRAM環境 でも実行可能

FLUX.2: 次世代ビジュアル生成・編集モデル

FLUX.2 概要

Black Forest Labs のオープンコア哲学

FLUX.1 から FLUX.2 へ

主な機能 (What’s New)

FLUX.2 製品群

性能と価値

技術構造 (How It Works)

追加資料

今後の方向性 (Into the New)

関連記事

1件のコメント

Hacker Newsの意見