5 ポイント 投稿者 GN⁺ 2026-01-19 | 2件のコメント | WhatsAppで共有
  • FLUX.2 [klein] は、画像生成と編集を統合した超高速ビジュアル生成モデル群で、1秒未満の推論速度とコンシューマー向けGPU互換性を提供
  • テキストから画像、画像編集、マルチリファレンス生成機能を単一アーキテクチャでサポートし、品質は大規模モデル級を維持
  • 9BモデルはFLUX NCLライセンス、4BモデルはApache 2.0ライセンスで公開され、開発者のアクセス性とカスタマイズのしやすさを確保
  • FP8・NVFP4量子化版はNVIDIAとの協業で作成され、VRAM使用量を最大55%削減し、速度を最大2.7倍向上
  • リアルタイム生成とインタラクションを目指す**「インタラクティブ・ビジュアル・インテリジェンス」**というビジョンに向けた一歩であり、リアルタイムのデザイン・コンテンツ制作ツールに活用可能

FLUX.2 [klein] 概要

  • FLUX.2 [klein]は、Black Forest Labsが公開した最速の画像生成モデル群で、生成と編集を1つの構造に統合
    • エンドツーエンドの推論速度は1秒未満で、高品質な画像をリアルタイムに生成
    • 13GB VRAMのみで動作可能で、RTX 3090/4070クラスのGPUでも実行可能
  • モデル名の「klein」はドイツ語で「小さい」を意味し、小型構造と低遅延を示す
    • ただし性能は大規模モデルに匹敵し、テキストから画像生成・編集・マルチリファレンス生成をすべてサポート

主な特徴

  • 0.5秒未満の推論で画像生成または編集が可能
  • 写真レベルの写実性と高い多様性を提供
  • 統合型モデル構造により、テキストから画像、画像から画像、マルチリファレンス作業を単一モデルで実行
  • コンシューマー向けGPU互換性を確保: 4Bモデルは約13GB VRAMで動作
  • 開発者フレンドリーを強化: 4BモデルはApache 2.0、9BモデルはFLUX NCLで公開
  • APIとオープンウェイトを提供し、ローカル実行と本番環境へのデプロイの両方に対応

モデル構成

FLUX.2 [klein] 9B

  • 主力モデルとして、品質と遅延のバランスを定義
    • テキストから画像、単一リファレンス編集、マルチリファレンス生成で5倍大きいモデルと同等以上の性能
    • 0.5秒未満の推論速度
    • 9Bフローモデル8B Qwen3テキスト埋め込みモデルをベースに構成
    • **4ステップ推論(step-distilled)**構造で効率を最大化
  • ライセンス: FLUX NCL

FLUX.2 [klein] 4B

  • Apache 2.0ライセンスで完全公開されたモデル
    • RTX 3090/4070などのコンシューマー向けGPUで実行可能
    • テキストから画像(T2I)画像から画像(I2I)マルチリファレンス生成をサポート
    • 小型ながらサイズ比で高品質を実現
    • ローカル開発およびエッジ配備に適する

FLUX.2 [klein] Base 9B / 4B

  • **非蒸留(full-capacity)**版で、学習信号を完全に保持
    • ファインチューニング、LoRA学習、研究用パイプラインに適する
    • 蒸留モデルより出力の多様性が高い
  • ライセンス: 4B BaseはApache 2.0、9B BaseはFLUX NCL

量子化版

  • NVIDIAとの協業によりFP8およびNVFP4版を公開
    • FP8: 最大1.6倍高速化、VRAMを40%削減
    • NVFP4: 最大2.7倍高速化、VRAMを55%削減
    • RTX 5080/5090基準で1024×1024 T2Iベンチマークを実施
  • 同一のライセンス体系を維持: 4BはApache 2.0、9BはFLUX NCL

性能分析

  • FLUX.2 [klein]はQwenと比べて低遅延かつ低VRAM使用量で、同等以上の品質を達成
  • Z-Imageより優れた性能を示し、テキストから画像とマルチリファレンス編集を単一モデルでサポート
  • Base版は速度はやや劣るものの、カスタマイズ性と研究適性が高い
  • 速度測定は**GB200 (bf16)**環境で実施

インタラクティブ・ビジュアル・インテリジェンスのビジョン

  • FLUX.2 [klein]は、単なる速度向上を超えてリアルタイムで相互作用するビジュアルインテリジェンスへの進展を示す
  • AIが見て、創造し、反復できるシステムを志向
  • これにより、リアルタイムデザインツール、視覚的推論、インタラクティブなコンテンツ制作など新たな応用分野が可能に

リソースとアクセス経路


2件のコメント

 
yangeok 2026-01-19

ああ、Macでは無理そうですね。No GPU or XPU found だそうです(笑)

 
GN⁺ 2026-01-19
Hacker Newsの意見
  • まだ自分のGenAI ShowdownサイトにKleinを追加できていない
    ただ、Z-Image Turboに近いなら性能はかなり高そう
    参考までに、Z-Image Turboは15点満点中4点だったが、はるかに大きいモデルであるFlux.2 (32b)が1点高いだけだったことを考えると、かなり印象的
    ローカルモデルの比較結果はこちらで確認できる

    • モバイルで情報バブルを押すとすぐ消えてしまう問題がある。修正を依頼した
    • テスト方法には問題があると思う。大きなモデルははるかに洗練された学習能力とCGIレンダリングへの理解を持っている
      構造化データベースのテストは誤った自信を与える可能性がある。もはや単純なtext-to-imageは良いベンチマークではない
  • モデルがますます小さくなっているのに、品質と効率が向上しているのは驚き
    Z-Image Turboは本当にすごいし、このモデルも早く試してみたい
    関連する以前のスレッドはこちらで見られる

    • 小さなモデルにも臨界点を迎える瞬間があるようだ
      100GBのモデルはダウンロードも実行も難しいが、4GBのモデルならほとんどの開発者がすぐ試せる
    • 品質は良くなっているが、小さなモデルは依然として大規模モデル(Qwen Image、Flux 2 Full)に比べて知識量が不足している
      特に人物、アーティスト、特定の物体の表現で差が大きい
    • 与えられた出力品質に必要な最小パラメータ数が存在するのか気になる
      GPT 3.5以降、Deepseekははるかに低コストで訓練され、今ではノートPCでも3.5を上回るモデルが動いている。どこまで小さくできるのか疑問だ
  • このモデルはpogo stickの画像を作れない
    「虎がpogo stickの上で跳ねている」画像を試したが、pogo stick自体も生成できなかった

    • 空のワイングラスの画像を与えてワインで満たすよう指示しても失敗した
      こうした物理的操作はまだモデルにはできないので、関連する仕事はしばらく安泰そうだ
    • ローカルモデルには難しいテストだ。gpt-imageやNBは問題なかったが、Qwen-Imageだけが近い結果を出した
      各モデルのサンプルはこちらで見られる
      小さなモデルは、pogo stickのような具体的な物体を表現するには追加プロンプトが必要だ
    • 参考画像を与えてもやはり失敗する。
      モデルに十分な推論能力があれば、外部の参照画像を通じて知識を補えるはずだが、まだそこまで至っていない
    • 良いベンチマーク用プロンプトだ。Z-Image Turboもpogo stickをうまく描けない
      虎の例, これはpogo stickではない, Nano Banana Proの例
  • FLUX.2 [klein] 4BはKleinファミリーの中で最速のバージョンで、リアルタイムプレビューレイテンシが重要な本番環境向けに設計されているらしい
    どんな場面がそうした環境なのか気になる

    • ローカルモデルを使うとき、画像1枚を生成するのに10分も待ちたくない
      特に画像編集作業では速度が重要だ
    • おそらく高速な画像編集向きなのだと思う
  • 最初は、夜に画面をオレンジ色っぽくするF.luxアプリの話かと思った
    今ではどのOSにも標準機能として入っているので、もう必要ない

  • GenAIモデルを圧縮実装として見るなら、テキストはよく圧縮されるが画像や動画はそうではない
    それなのに、最新のtext-to-imageやtext-to-videoモデルはLlama-3のようなLLMよりずっと小さい
    これは、私たちが視覚世界の狭い人間中心の領域だけを学習してきたからかもしれない。まだ未踏の視覚的な組み合わせ空間が多く残っている

    • テキストは可逆圧縮できるが、画像・動画にはノイズが多く、単純比較は不公平だ
      人間が見分けられない程度の不可逆圧縮まで含めるなら、むしろ画像のほうが効率的かもしれない
    • 実際、画像・動画はテキストよりはるかによく圧縮できる
      テキストは4:1〜6:1程度だが、画像は10:1以上でも視覚的には無損失で、動画は時間的一貫性のおかげでさらに効率的だ
    • LLMにはまだ効率改善の余地が大きいと思う
      同時に、LLMが暗黙的に内包しているメタ知識の量も過小評価すべきではない
  • Flux 2 Kleinを使ったことがある人がいるのか気になる
    自分はもう新しいモデルを追いかけるのをやめて、Nano Banana Proひとつでアプリ全体を構築中だ
    結果には十分満足している
    picxstudio.com

  • Flux 1は本当に楽しく使ったし、今はZ-Image Turboで遊んでいる
    InvokeにFlux2 Kleinが追加されたら試すつもり

    • 同意。InvokeでZITを使う体験は素晴らしかった
  • GPT版と比べてインタラクション能力がどうなのか気になる

  • 小型バージョンでありながらオープンソースとして公開された点が気に入っている
    巨額の予算がなくても動かせるので機会が広がる
    速度向上もかなり印象的だ