- Krea 1の最初の画像生成モデルが、FLUX.1 Kreaというオープンウェイト版として公開
- 既存の画像生成モデルとは異なり、明確な美的嗜好とフォトリアリズムに注力し、「AI らしくない」画像を目標として設計
- 既存のベンチマークや評価指標が実際のユーザーが求める美的感覚とずれる問題を分析し、これを解決するために直接キュレーションしたデータと意見主導の美学的バイアスを適用
- **事前学習(pre-training)と事後学習(post-training)**の工程を分け、多様性を担保する段階と明確なスタイルへ収束させる段階を体系的に運用
- 今後はパーソナライズ・嗜好適合研究と、より広いビジュアルドメイン拡張およびクリエイター支援機能の強化を計画
FLUX.1 Kreaオープンソース公開
- Krea 1はBlack Forest Labsと共同で訓練した最初の画像生成モデルで、美的コントロールと画像品質の向上を目標にしている
- FLUX.1 Krea [dev] はオープンウェイトとして公開され、既存のFLUX.1-devエコシステムと完全に互換
- このモデルは、フォトリアリズムと美学的要素を最大化し、特定の美的嗜好を反映するよう設計されたopinionated aesthetics指向
「AI Look」現象と限界
- 既存のAI生成画像は、しばしば過度にぼやけた背景、蝋のような肌、単調な構図などの、いわゆる「AI look」現象を示す
- ベンチマーク最適化と技術的指標への偏重により、本物に近い質感、スタイルの多様性、創造的な結果物が犠牲になる問題を指摘
- 実際のユーザーの嗜好を反映できない既存評価モデルの限界
- 事前学習段階で使用されるFréchet Inception Distance(FID)、CLIP Scoreは、モデルの全体的な性能を測定するのに有用
- 学術界と産業界ではDPG、GenEval、T2I-Compbench、GenAI-Benchなどさまざまなベンチマークが使われるが、主にプロンプト一致、空間関係、属性結合などのみを評価
- 美的評価モデルとしてLAION-Aesthetics、Pickscore、ImageReward、HPSv2などがあるものの、ほとんどがCLIPベースで、解像度とパラメータ数に制限がある
- 例えばLAION-Aestheticsは女性、ぼやけた背景、明るい配色の画像に偏りがある。この基準でデータをフィルタリングすると、モデルに暗黙の先入観が埋め込まれる可能性がある
- 美学評価指標とフィルターは悪い画像を除外するのに有用だが、トレーニングデータの選別に過度に依存するとモデル自体に偏りが刻印される危険がある
- 最新のビジョン言語モデルベースの評価指標は登場しているものの、美的嗜好は依然として主観的で、単一の数値に還元しにくい
事前学習(Pre-training)と事後学習(Post-training)の構造
-
事前学習(Pre-training)
- 事前学習では、スタイル、物体、人物、場所など視覚的世界に関する知識を幅広く習得し、**多様性(mode coverage)**を最大化
- 「良くない」データも含め、モデルが望ましくない特性(例:奇妙な指、ぼやけた描写など)を学習するようにする
- 事前学習が、モデルの最高品質限界とスタイルの多様性を決定
-
事後学習(Post-training)
- 事後学習では、モデル分布を好まれるスタイルへ集中(mode collapsing)させ、「AI look」ではなく明確な美的方向性に収束させる
- **Supervised Finetuning(SFT)とRLHF(嗜好ベースの強化学習)**の2段階で進行
- SFT: 直接キュレーションした高品質データセットとKrea-1の合成画像を活用
- RLHF: 内部嗜好データを基に複数回最適化し、美学とスタイルを微細に調整
- データ量よりデータ品質が決定的であることを確認(1M未満の少量の高品質データでも十分)
- opinionated approachの美学的嗜好ラベルを適用し、公開された嗜好データだけを活用した場合に起こりうる、単調さとAI lookへの回帰という問題を防止
モデルパイプラインおよび実験的インサイト
- flux-dev-rawという12Bパラメータのguidance-distilledベースモデルを使用し、既存の過度にファインチューニングされたオープンモデルと差別化
- RLHF段階では**TPO(preference optimization)**手法を適用し、鑑賞性とスタイル化特性を強化
- 厳密にフィルタリングされた高品質の内部嗜好データを複数回活用して、モデル出力を精密に補正
-
主要な発見点
- 1. データ量より質がより重要。1M未満のデータでも意味のある事後学習が可能。量的多様性は偏りの緩和と安定性に有効だが、最も重要なのはキュレーションされた高品質データである
- 2. 明確な嗜好中心のデータ収集が必要。一般的な公開データセットは意図しない偏りと「AI look」への回帰、単純な構図/色の偏りなどの問題を引き起こす
- テキスト再現、解剖学、構造など客観的目標にはデータの多様性が役立つが、鑑賞性など主観的目標には、混在より特化データの方が効率的
- 複数の鑑賞性分布を混ぜると、誰も満足しない結果になり、多くのユーザーがLoRAなど後処理手法に依存する傾向が生まれることも指摘
未来研究方向およびまとめ
- Krea 1は美学的基準と品質を重視するクリエイターにとっての第一歩であり、オープンソースコミュニティの拡大を期待
- 今後はコア能力の強化、より多様なビジュアルドメインのサポート、個別化・コントロール可能性研究を通じて、ユーザーの美的嗜好に合ったモデル提供を目指す
- GitHub( https://github.com/krea-ai/flux-krea )を参照
まだコメントはありません。