FLUX.1 Kontext - テキストと画像を組み合わせたリアルタイム生成・編集AIモデル

(bfl.ai)

3 ポイント投稿者 GN⁺ 2025-05-30 | 1件のコメント | WhatsAppで共有

Black Forest LabsのFLUX.1 Kontextは、テキストと画像を同時に入力して文脈を理解し、既存画像の特徴とスタイルを維持しながら即時に修正・生成できる最新の生成AIモデル
従来のテキスト画像生成アルゴリズムと比べて、文字・オブジェクトの一貫性、ローカル編集、スタイル参照、高速応答などで優れた性能を示す
ユーザーはテキストのみを入力することも、画像とテキストを組み合わせて特定領域だけを変更したり、スタイルだけを適用したり、多段階編集を行ったりと、さまざまなインタラクティブな画像作業が可能
**FLUX.1 Kontext [pro]**は、複数回の編集でも画像の一貫性を維持し、業界最高クラスの速度で動作する
オープンソースモデル**[dev]バージョン**は、軽量化された12B Diffusion Transformerで、研究およびカスタマイズ目的のプライベートベータとして公開された

FLUX.1 Kontextの紹介

FLUX.1 Kontextは、テキストだけで画像を生成する従来モデルの限界を超え、テキストと画像を一緒に入力して文脈ベースの画像生成と編集を可能にする生成フローマッチングモデル
テキストプロンプトと画像を同時に活用することで、画像の特定要素を削除・追加・変更し、スタイルや特徴を保ったまま新しいシーンを生成できる

主な機能

キャラクターの一貫性: 同一人物、オブジェクト、スタイルがさまざまなシーンや環境でも一貫して維持される
ローカル編集: 画像の特定部分だけをテキスト命令で修正できる（例: 顔の特定要素だけを削除、文字だけを変更など）
スタイル参照: 参照画像の独自スタイルを新しいシーンに適用可能
インタラクティブな速度: 従来モデル比で最大8倍高速な推論速度により、リアルタイム編集と生成をサポート

テキスト画像および画像画像編集の統合

FLUX.1 Kontextは、一度の編集だけでなく、複数段階にわたる反復的な指示でも画像品質と特徴を維持する
プロンプトと前の画像結果を連続的に活用し、段階ごとに望む結果へ到達できる

FLUX.1 Kontextモデルのラインアップ

FLUX.1 Kontext [pro]
- 高速な反復編集と生成に特化したフラッグシップモデル
- テキストと参照画像を同時に入力し、対象領域の編集と複雑なシーン変換を高速かつ一貫して実行する
FLUX.1 Kontext [max]
- 実験的な最高仕様モデルで、プロンプト理解力、タイポグラフィ、高速で一貫した編集能力が向上
FLUX.1 Kontext [dev]
- 研究およびカスタマイズ目的の軽量化（12B）モデルで、プライベートベータとして公開
- 公開時にはFAL、Replicate、Runware、DataCrunch、TogetherAI、HuggingFaceなど主要なAIインフラパートナーを通じて提供予定

サポートとアクセス

FLUX.1 Kontextシリーズは、KreaAI, Freepik, Lightricks, OpenArt, LeonardoAIなどの各種サービスと、FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrgなどのインフラで利用可能
リアルタイム体験とデモのためのFLUX Playground(https://playground.bfl.ai/)を通じて、別途統合なしで手軽にモデル性能を検証し、結果を確認できる

性能評価

独自ベンチマークKontextBenchで、6種類の画像生成・編集タスクごとにSOTAモデルと比較評価
テキスト編集、キャラクター保持分野で業界最高水準のスコアを記録
推論速度でも従来の最高性能モデルに比べて圧倒的に低いレイテンシを達成
美的完成度、プロンプト理解力、タイポグラフィ、写実性など多様な基準でも競争力を実証

限界点と今後の課題

多段階（6回以上）の反復編集では**視覚ノイズ（artifact）**が発生し、画像品質が低下する可能性がある
ときどき特定プロンプトの細かな指示を正確に守れないケースがある
世界知識および文脈理解力に限界があり、文脈的に不正確な画像を生成することがある
モデルの軽量化およびdistillation過程で画像品質が低下する場合がある

誰でも**FLUX Playground**でモデルをリアルタイムに試し、API導入前に機能を検証できる
技術レポート全文を見る(PDF)

1件のコメント

GN⁺ 2025-05-30

Hacker Newsのコメント

実際に使ってみたが、面白い「コンテキストスリップ」現象を体験した。関連画像生成プロンプトで、宇宙船が人里離れた惑星に着陸した画像を作り、「宇宙船をもっとカラフルにして、画像内でより大きく見せてほしい」と編集を依頼した。すると宇宙船がコンテナ船に変わってしまった。チャット履歴は残っていたのだから、自分が宇宙船を望んでいることは把握できたはずなのに、重要な文脈を取りこぼして結果がとんちんかんになった
ReplicateのFLUX Kontext Proエンドポイントで直接テスト中。FLUX Kontextのさまざまな画像編集の使い方を見せるReplicateアプリもある。FLUX Kontext Apps 画像品質は、単純なimage-to-image生成の場合はGPT-4oの画像生成と同程度。生成速度も約4秒と速い部類。プロンプトエンジニアリングは、例にあるもの以外だとやや癖があって難しい印象だが、徐々に良くなると思う。スタイル変更や細かな要求も適用はされるものの、より具体的な指示を出すほど、かえって詳細な要求を無視する傾向がある
- 元の属性をどれだけうまく保持するかを見ると、FLUXモデルのほうが4oより正確に感じる。既存の3D動物キャラクターでライティングだけ変えたいと頼むと、4oはキャラクターの顔を壊したり体や細部に手を入れたりするのに対し、FLUXはポーズやライティングを大きく変えても、視覚的な形状をほぼ完璧に同一のまま保つ
- image-to-imageの実験ではGPT-4oより印象的。4oは色をセピア調に強く寄せがちで、繰り返し編集すると特に「4oの出力だ」とわかりやすい。一方でFLUX.1 Kontext Max版は、はるかに幅広く多彩な色表現ができ、4oが見落とすような細かなディテールまで拾う。プロンプトだけで画像を新規生成するのはまだ試していないが、プロンプトで既存画像を編集する点ではFLUXが圧倒的に優れている印象
- Replicateが常に最新モデルをすぐ提供してくれるのが本当に気に入っている。急速に進化するAI時代に、新しい研究版モデルが即座にAPIとして公開され、実運用でもスケールして使えるのは素晴らしい。Replicateのような配布プラットフォームは、こうしたモデル公開のインパクトを何倍にも増幅しているように思う
- 約4秒かかるというのは、どのGPUとVRAMを前提にした話なのか気になる。もしかしてHuggingfaceのUIのこと？
一部のサンプルは、良すぎる結果だけを選んで見せているように思える。「Kontext Apps」のプロフェッショナルヘッドショットアプリを使った人はいる？ Kontext Appsリンク自分の写真を何枚か入れてみたが、毎回まったく別人になってしまった。最終的なヘッドショットは確かにプロっぽくは見える
- flux playgroundで、疲れたジム自撮りにヘッドショット用プロンプトを試したところ、同じ表情や汗、肌の色など、自分の見た目の大半は維持された。まるで背景だけ変えたようだったし、「SNS向けの良いヘッドショットにして、笑顔、良い姿勢と服装、汗のないきれいな肌にして」などと追加で依頼すると、服が変わって不自然な笑顔が足されるだけだった。この手の画像では、実際によくある出力に近い
- 入力画像と出力画像のアスペクト比が同じなのか気になる。比率が強制的に変わると、おかしな挙動が出る気がする
- 顔などのアイデンティティ保持は、誰もまだ完全には解決できていない課題。手と同じで、科学的な難問だ
FLUX Kontextモデルを自分のGenAI画像比較サイトに追加するか悩んでいる。Max版はプロンプト忠実度の点でスコアがほぼ2倍高いが、それでもOpenAIのgpt-image-1にはかなり及ばない（画質は別として）。gpt-image-1がリーダーボード1位。Flux 1.DはローカルGenAI能力のベースラインとして残している。比較サイト HunyuanのImage 2.0モデルも最近追加したが、リアルタイムモデルらしくスコアは低め。ちなみにBlack Forest Labsのこのモデルは、text-to-imageというより既存画像の反復編集・修正に重点を置いているようだ
- 「Flux 1.1 Pro Ultra」もサイトに追加してほしい。このシリーズで最も性能が高く、Flux Devよりプロンプト忠実度がずっと良いという評判だ。最高クラスのオープンソースモデルの1つとして、公平に比較できるようになるはず。サイト自体も面白いし、プロンプトも興味深い
- 自分の提案としては、こういうシーンのプロンプトは昔のどのモデルでもまともに実装できなかった。最近かなり改善されていそうだが…
```
A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
```
  十分なデータがあるはずなのに、なぜここまでひどい結果になるのか不思議だ。かなり象徴的な場面なのに
- サイト追加をリクエストした。いつも楽しく見ている
入力画像は1枚に限定されるのか気になる。複数枚を入力して、「A画像のアイテムをB画像の中に配置」や「AのキャラクターをBの風景に入れて」といった複合プロンプトを試してみたい
- 実験的な「multi」モードでは複数画像を入力できる
- Falでマルチ画像インターフェースを使えるし、Replicateにもたぶんあるはず（未確認）。このモデルはすごい性能だ。gpt-image-1には及ばないが、本当にかなり近い。画像や動画では、もはや独占的な参入障壁はなくなると思う。GoogleやOpenAIが創作市場を独占するのではという懸念もあったが、今では誰でも自分で作れるようになってきている
技術論文が気になる人向けに公式レポートを共有しておく
- 実装は他のオープンモデルと同様、比較的シンプルに見える（HiDream-E1、ICEdit、DreamOなど）。本当の差別化要因はデータキュレーションで、この部分は論文では簡単にしか説明されていない
- ほとんどの人は論文そのものには興味がなく、オープンウェイトモデルをダウンロードして自分で回すのが目的。大半は持ち帰って活用するだけで、貢献はほとんどしない
これをローカルで自分で修正・学習するには、どの程度の専門性が必要だろう？ RTX 4090、Windows環境でFlux 1 devのLoRAチューニングを自分でやろうとして2日も掘っているが、うまくいっていない。どれくらい深く学ぶ必要があるのか、参入障壁が低いのかも気になる。初心者でもできるのか、それとも熟練者向けなのか
- オープンソースモデルはまだ公開されておらず、Flux 1 DevでのLoRA学習より簡単なはずはない
- SimpleTunerスクリプトの使用を勧める。Pythonライブラリに詳しくなくても、自分でLoRAチューニングできた
- たいていはcomfyuiで構成済みの版を簡単に見つけられる。YouTuberだとpatreon支援者向け特典として配布していたりもする
- RTX 4090 + Windowsでうまくいかないのは、Windows OSが原因かもしれない。本領を発揮するのはやはりLinux
remove from faceの例がよく理解できない。別の顔写真がないなら、結局は典型的な画像を使っているだけでは？
- 実際に何かを復元しているわけではなく、すべて生成された画像にすぎない。本物の顔があるわけではない
- 例をよく見ると、特定のオブジェクトが顔を部分的に隠しているとき、モデルが推論して復元できる可能性がある
- ベースモデルがどの段階にあるか次第だが、一部のアイデンティティモデルは部分的なジオメトリだけでも顔をかなり精密に補間できる
- 最初の例のスライドショー自体にバグがあるように見える。雪片が顔の大半を覆っている
- 実写写真を使うとモデルが顔を変えてしまうことが多いので、そもそも顔が見えない写真を例として使っているのだろう
チェス画像を生成できるのかという質問。チェスAI予測リンク
オープンな開発者版がいつ頃出るのかを推測するコメント。1週間以内なのか、1〜2か月以上かかるのかが気になる

FLUX.1 Kontext - テキストと画像を組み合わせたリアルタイム生成・編集AIモデル

FLUX.1 Kontextの紹介

主な機能

テキスト画像および画像画像編集の統合

FLUX.1 Kontextモデルのラインアップ

サポートとアクセス

性能評価

限界点と今後の課題

関連記事

1件のコメント

Hacker Newsのコメント