- FLUX.2 [klein] は、画像生成と編集を統合した超高速ビジュアル生成モデル群で、1秒未満の推論速度とコンシューマー向けGPU互換性を提供
- テキストから画像、画像編集、マルチリファレンス生成機能を単一アーキテクチャでサポートし、品質は大規模モデル級を維持
- 9BモデルはFLUX NCLライセンス、4BモデルはApache 2.0ライセンスで公開され、開発者のアクセス性とカスタマイズのしやすさを確保
- FP8・NVFP4量子化版はNVIDIAとの協業で作成され、VRAM使用量を最大55%削減し、速度を最大2.7倍向上
- リアルタイム生成とインタラクションを目指す**「インタラクティブ・ビジュアル・インテリジェンス」**というビジョンに向けた一歩であり、リアルタイムのデザイン・コンテンツ制作ツールに活用可能
FLUX.2 [klein] 概要
- FLUX.2 [klein]は、Black Forest Labsが公開した最速の画像生成モデル群で、生成と編集を1つの構造に統合
- エンドツーエンドの推論速度は1秒未満で、高品質な画像をリアルタイムに生成
- 13GB VRAMのみで動作可能で、RTX 3090/4070クラスのGPUでも実行可能
- モデル名の「klein」はドイツ語で「小さい」を意味し、小型構造と低遅延を示す
- ただし性能は大規模モデルに匹敵し、テキストから画像生成・編集・マルチリファレンス生成をすべてサポート
主な特徴
- 0.5秒未満の推論で画像生成または編集が可能
- 写真レベルの写実性と高い多様性を提供
- 統合型モデル構造により、テキストから画像、画像から画像、マルチリファレンス作業を単一モデルで実行
- コンシューマー向けGPU互換性を確保: 4Bモデルは約13GB VRAMで動作
- 開発者フレンドリーを強化: 4BモデルはApache 2.0、9BモデルはFLUX NCLで公開
- APIとオープンウェイトを提供し、ローカル実行と本番環境へのデプロイの両方に対応
モデル構成
FLUX.2 [klein] 9B
- 主力モデルとして、品質と遅延のバランスを定義
- テキストから画像、単一リファレンス編集、マルチリファレンス生成で5倍大きいモデルと同等以上の性能
- 0.5秒未満の推論速度
- 9Bフローモデルと8B Qwen3テキスト埋め込みモデルをベースに構成
- **4ステップ推論(step-distilled)**構造で効率を最大化
- ライセンス: FLUX NCL
FLUX.2 [klein] 4B
- Apache 2.0ライセンスで完全公開されたモデル
- RTX 3090/4070などのコンシューマー向けGPUで実行可能
- テキストから画像(T2I)、画像から画像(I2I)、マルチリファレンス生成をサポート
- 小型ながらサイズ比で高品質を実現
- ローカル開発およびエッジ配備に適する
FLUX.2 [klein] Base 9B / 4B
- **非蒸留(full-capacity)**版で、学習信号を完全に保持
- ファインチューニング、LoRA学習、研究用パイプラインに適する
- 蒸留モデルより出力の多様性が高い
- ライセンス: 4B BaseはApache 2.0、9B BaseはFLUX NCL
量子化版
- NVIDIAとの協業によりFP8およびNVFP4版を公開
- FP8: 最大1.6倍高速化、VRAMを40%削減
- NVFP4: 最大2.7倍高速化、VRAMを55%削減
- RTX 5080/5090基準で1024×1024 T2Iベンチマークを実施
- 同一のライセンス体系を維持: 4BはApache 2.0、9BはFLUX NCL
性能分析
- FLUX.2 [klein]はQwenと比べて低遅延かつ低VRAM使用量で、同等以上の品質を達成
- Z-Imageより優れた性能を示し、テキストから画像とマルチリファレンス編集を単一モデルでサポート
- Base版は速度はやや劣るものの、カスタマイズ性と研究適性が高い
- 速度測定は**GB200 (bf16)**環境で実施
インタラクティブ・ビジュアル・インテリジェンスのビジョン
- FLUX.2 [klein]は、単なる速度向上を超えてリアルタイムで相互作用するビジュアルインテリジェンスへの進展を示す
- AIが見て、創造し、反復できるシステムを志向
- これにより、リアルタイムデザインツール、視覚的推論、インタラクティブなコンテンツ制作など新たな応用分野が可能に
リソースとアクセス経路
2件のコメント
ああ、Macでは無理そうですね。
No GPU or XPU foundだそうです(笑)Hacker Newsの意見
まだ自分のGenAI ShowdownサイトにKleinを追加できていない
ただ、Z-Image Turboに近いなら性能はかなり高そう
参考までに、Z-Image Turboは15点満点中4点だったが、はるかに大きいモデルであるFlux.2 (32b)が1点高いだけだったことを考えると、かなり印象的
ローカルモデルの比較結果はこちらで確認できる
構造化データベースのテストは誤った自信を与える可能性がある。もはや単純なtext-to-imageは良いベンチマークではない
モデルがますます小さくなっているのに、品質と効率が向上しているのは驚き
Z-Image Turboは本当にすごいし、このモデルも早く試してみたい
関連する以前のスレッドはこちらで見られる
100GBのモデルはダウンロードも実行も難しいが、4GBのモデルならほとんどの開発者がすぐ試せる
特に人物、アーティスト、特定の物体の表現で差が大きい
GPT 3.5以降、Deepseekははるかに低コストで訓練され、今ではノートPCでも3.5を上回るモデルが動いている。どこまで小さくできるのか疑問だ
このモデルはpogo stickの画像を作れない
「虎がpogo stickの上で跳ねている」画像を試したが、pogo stick自体も生成できなかった
こうした物理的操作はまだモデルにはできないので、関連する仕事はしばらく安泰そうだ
各モデルのサンプルはこちらで見られる
小さなモデルは、
pogo stickのような具体的な物体を表現するには追加プロンプトが必要だモデルに十分な推論能力があれば、外部の参照画像を通じて知識を補えるはずだが、まだそこまで至っていない
虎の例, これはpogo stickではない, Nano Banana Proの例
FLUX.2 [klein] 4BはKleinファミリーの中で最速のバージョンで、リアルタイムプレビューやレイテンシが重要な本番環境向けに設計されているらしい
どんな場面がそうした環境なのか気になる
特に画像編集作業では速度が重要だ
最初は、夜に画面をオレンジ色っぽくするF.luxアプリの話かと思った
今ではどのOSにも標準機能として入っているので、もう必要ない
GenAIモデルを圧縮実装として見るなら、テキストはよく圧縮されるが画像や動画はそうではない
それなのに、最新のtext-to-imageやtext-to-videoモデルはLlama-3のようなLLMよりずっと小さい
これは、私たちが視覚世界の狭い人間中心の領域だけを学習してきたからかもしれない。まだ未踏の視覚的な組み合わせ空間が多く残っている
人間が見分けられない程度の不可逆圧縮まで含めるなら、むしろ画像のほうが効率的かもしれない
テキストは4:1〜6:1程度だが、画像は10:1以上でも視覚的には無損失で、動画は時間的一貫性のおかげでさらに効率的だ
同時に、LLMが暗黙的に内包しているメタ知識の量も過小評価すべきではない
Flux 2 Kleinを使ったことがある人がいるのか気になる
自分はもう新しいモデルを追いかけるのをやめて、Nano Banana Proひとつでアプリ全体を構築中だ
結果には十分満足している
picxstudio.com
Flux 1は本当に楽しく使ったし、今はZ-Image Turboで遊んでいる
InvokeにFlux2 Kleinが追加されたら試すつもり
GPT版と比べてインタラクション能力がどうなのか気になる
小型バージョンでありながらオープンソースとして公開された点が気に入っている
巨額の予算がなくても動かせるので機会が広がる
速度向上もかなり印象的だ