- Black Forest LabsのFLUX.1 Kontextは、テキストと画像を同時に入力して文脈を理解し、既存画像の特徴とスタイルを維持しながら即時に修正・生成できる最新の生成AIモデル
- 従来のテキスト画像生成アルゴリズムと比べて、文字・オブジェクトの一貫性、ローカル編集、スタイル参照、高速応答などで優れた性能を示す
- ユーザーはテキストのみを入力することも、画像とテキストを組み合わせて特定領域だけを変更したり、スタイルだけを適用したり、多段階編集を行ったりと、さまざまなインタラクティブな画像作業が可能
- **FLUX.1 Kontext [pro]**は、複数回の編集でも画像の一貫性を維持し、業界最高クラスの速度で動作する
- オープンソースモデル**[dev]バージョン**は、軽量化された12B Diffusion Transformerで、研究およびカスタマイズ目的のプライベートベータとして公開された
FLUX.1 Kontextの紹介
- FLUX.1 Kontextは、テキストだけで画像を生成する従来モデルの限界を超え、テキストと画像を一緒に入力して文脈ベースの画像生成と編集を可能にする生成フローマッチングモデル
- テキストプロンプトと画像を同時に活用することで、画像の特定要素を削除・追加・変更し、スタイルや特徴を保ったまま新しいシーンを生成できる
主な機能
- キャラクターの一貫性: 同一人物、オブジェクト、スタイルがさまざまなシーンや環境でも一貫して維持される
- ローカル編集: 画像の特定部分だけをテキスト命令で修正できる(例: 顔の特定要素だけを削除、文字だけを変更 など)
- スタイル参照: 参照画像の独自スタイルを新しいシーンに適用可能
- インタラクティブな速度: 従来モデル比で最大8倍高速な推論速度により、リアルタイム編集と生成をサポート
テキスト画像および画像画像編集の統合
- FLUX.1 Kontextは、一度の編集だけでなく、複数段階にわたる反復的な指示でも画像品質と特徴を維持する
- プロンプトと前の画像結果を連続的に活用し、段階ごとに望む結果へ到達できる
FLUX.1 Kontextモデルのラインアップ
- FLUX.1 Kontext [pro]
- 高速な反復編集と生成に特化したフラッグシップモデル
- テキストと参照画像を同時に入力し、対象領域の編集と複雑なシーン変換を高速かつ一貫して実行する
- FLUX.1 Kontext [max]
- 実験的な最高仕様モデルで、プロンプト理解力、タイポグラフィ、高速で一貫した編集能力が向上
- FLUX.1 Kontext [dev]
- 研究およびカスタマイズ目的の軽量化(12B)モデルで、プライベートベータとして公開
- 公開時にはFAL、Replicate、Runware、DataCrunch、TogetherAI、HuggingFaceなど主要なAIインフラパートナーを通じて提供予定
サポートとアクセス
- FLUX.1 Kontextシリーズは、KreaAI, Freepik, Lightricks, OpenArt, LeonardoAIなどの各種サービスと、FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrgなどのインフラで利用可能
- リアルタイム体験とデモのためのFLUX Playground(https://playground.bfl.ai/)を通じて、別途統合なしで手軽にモデル性能を検証し、結果を確認できる
性能評価
- 独自ベンチマークKontextBenchで、6種類の画像生成・編集タスクごとにSOTAモデルと比較評価
- テキスト編集、キャラクター保持分野で業界最高水準のスコアを記録
- 推論速度でも従来の最高性能モデルに比べて圧倒的に低いレイテンシを達成
- 美的完成度、プロンプト理解力、タイポグラフィ、写実性など多様な基準でも競争力を実証
限界点と今後の課題
- 多段階(6回以上)の反復編集では**視覚ノイズ(artifact)**が発生し、画像品質が低下する可能性がある
- ときどき特定プロンプトの細かな指示を正確に守れないケースがある
- 世界知識および文脈理解力に限界があり、文脈的に不正確な画像を生成することがある
- モデルの軽量化およびdistillation過程で画像品質が低下する場合がある
1件のコメント
Hacker Newsのコメント
実際に使ってみたが、面白い「コンテキストスリップ」現象を体験した。関連画像 生成プロンプトで、宇宙船が人里離れた惑星に着陸した画像を作り、「宇宙船をもっとカラフルにして、画像内でより大きく見せてほしい」と編集を依頼した。すると宇宙船がコンテナ船に変わってしまった。チャット履歴は残っていたのだから、自分が宇宙船を望んでいることは把握できたはずなのに、重要な文脈を取りこぼして結果がとんちんかんになった
ReplicateのFLUX Kontext Proエンドポイントで直接テスト中。FLUX Kontextのさまざまな画像編集の使い方を見せるReplicateアプリもある。FLUX Kontext Apps 画像品質は、単純なimage-to-image生成の場合はGPT-4oの画像生成と同程度。生成速度も約4秒と速い部類。プロンプトエンジニアリングは、例にあるもの以外だとやや癖があって難しい印象だが、徐々に良くなると思う。スタイル変更や細かな要求も適用はされるものの、より具体的な指示を出すほど、かえって詳細な要求を無視する傾向がある
一部のサンプルは、良すぎる結果だけを選んで見せているように思える。「Kontext Apps」のプロフェッショナルヘッドショットアプリを使った人はいる? Kontext Appsリンク 自分の写真を何枚か入れてみたが、毎回まったく別人になってしまった。最終的なヘッドショットは確かにプロっぽくは見える
FLUX Kontextモデルを自分のGenAI画像比較サイトに追加するか悩んでいる。Max版はプロンプト忠実度の点でスコアがほぼ2倍高いが、それでもOpenAIのgpt-image-1にはかなり及ばない(画質は別として)。gpt-image-1がリーダーボード1位。Flux 1.DはローカルGenAI能力のベースラインとして残している。比較サイト HunyuanのImage 2.0モデルも最近追加したが、リアルタイムモデルらしくスコアは低め。ちなみにBlack Forest Labsのこのモデルは、text-to-imageというより既存画像の反復編集・修正に重点を置いているようだ
入力画像は1枚に限定されるのか気になる。複数枚を入力して、「A画像のアイテムをB画像の中に配置」や「AのキャラクターをBの風景に入れて」といった複合プロンプトを試してみたい
技術論文が気になる人向けに公式レポートを共有しておく
これをローカルで自分で修正・学習するには、どの程度の専門性が必要だろう? RTX 4090、Windows環境でFlux 1 devのLoRAチューニングを自分でやろうとして2日も掘っているが、うまくいっていない。どれくらい深く学ぶ必要があるのか、参入障壁が低いのかも気になる。初心者でもできるのか、それとも熟練者向けなのか
remove from faceの例がよく理解できない。別の顔写真がないなら、結局は典型的な画像を使っているだけでは?
チェス画像を生成できるのかという質問。チェスAI予測リンク
オープンな開発者版がいつ頃出るのかを推測するコメント。1週間以内なのか、1〜2か月以上かかるのかが気になる