4 ポイント 投稿者 GN⁺ 2025-08-02 | 1件のコメント | WhatsAppで共有
  • Krea 1の最初の画像生成モデルが、FLUX.1 Kreaというオープンウェイト版として公開
  • 既存の画像生成モデルとは異なり、明確な美的嗜好フォトリアリズムに注力し、「AI らしくない」画像を目標として設計
  • 既存のベンチマークや評価指標が実際のユーザーが求める美的感覚とずれる問題を分析し、これを解決するために直接キュレーションしたデータ意見主導の美学的バイアスを適用
  • **事前学習(pre-training)事後学習(post-training)**の工程を分け、多様性を担保する段階と明確なスタイルへ収束させる段階を体系的に運用
  • 今後はパーソナライズ・嗜好適合研究と、より広いビジュアルドメイン拡張およびクリエイター支援機能の強化を計画

FLUX.1 Kreaオープンソース公開

  • Krea 1はBlack Forest Labsと共同で訓練した最初の画像生成モデルで、美的コントロールと画像品質の向上を目標にしている
  • FLUX.1 Krea [dev] はオープンウェイトとして公開され、既存のFLUX.1-devエコシステムと完全に互換
  • このモデルは、フォトリアリズムと美学的要素を最大化し、特定の美的嗜好を反映するよう設計されたopinionated aesthetics指向

「AI Look」現象と限界

  • 既存のAI生成画像は、しばしば過度にぼやけた背景、蝋のような肌、単調な構図などの、いわゆる「AI look」現象を示す
  • ベンチマーク最適化と技術的指標への偏重により、本物に近い質感スタイルの多様性創造的な結果物が犠牲になる問題を指摘
  • 実際のユーザーの嗜好を反映できない既存評価モデルの限界
    • 事前学習段階で使用されるFréchet Inception Distance(FID)CLIP Scoreは、モデルの全体的な性能を測定するのに有用
    • 学術界と産業界ではDPG、GenEval、T2I-Compbench、GenAI-Benchなどさまざまなベンチマークが使われるが、主にプロンプト一致、空間関係、属性結合などのみを評価
    • 美的評価モデルとしてLAION-Aesthetics、Pickscore、ImageReward、HPSv2などがあるものの、ほとんどがCLIPベースで、解像度とパラメータ数に制限がある
    • 例えばLAION-Aesthetics女性、ぼやけた背景、明るい配色の画像に偏りがある。この基準でデータをフィルタリングすると、モデルに暗黙の先入観が埋め込まれる可能性がある
  • 美学評価指標とフィルターは悪い画像を除外するのに有用だが、トレーニングデータの選別に過度に依存するとモデル自体に偏りが刻印される危険がある
  • 最新のビジョン言語モデルベースの評価指標は登場しているものの、美的嗜好は依然として主観的で、単一の数値に還元しにくい
広告

事前学習(Pre-training)と事後学習(Post-training)の構造

  • 事前学習(Pre-training)

    • 事前学習では、スタイル、物体、人物、場所など視覚的世界に関する知識を幅広く習得し、**多様性(mode coverage)**を最大化
    • 「良くない」データも含め、モデルが望ましくない特性(例:奇妙な指、ぼやけた描写など)を学習するようにする
    • 事前学習が、モデルの最高品質限界スタイルの多様性を決定
  • 事後学習(Post-training)

    • 事後学習では、モデル分布を好まれるスタイルへ集中(mode collapsing)させ、「AI look」ではなく明確な美的方向性に収束させる
    • **Supervised Finetuning(SFT)RLHF(嗜好ベースの強化学習)**の2段階で進行
      • SFT: 直接キュレーションした高品質データセットとKrea-1の合成画像を活用
      • RLHF: 内部嗜好データを基に複数回最適化し、美学とスタイルを微細に調整
    • データ量よりデータ品質が決定的であることを確認(1M未満の少量の高品質データでも十分)
    • opinionated approachの美学的嗜好ラベルを適用し、公開された嗜好データだけを活用した場合に起こりうる、単調さとAI lookへの回帰という問題を防止
広告

モデルパイプラインおよび実験的インサイト

  • flux-dev-rawという12Bパラメータのguidance-distilledベースモデルを使用し、既存の過度にファインチューニングされたオープンモデルと差別化
  • RLHF段階では**TPO(preference optimization)**手法を適用し、鑑賞性とスタイル化特性を強化
  • 厳密にフィルタリングされた高品質の内部嗜好データを複数回活用して、モデル出力を精密に補正
  • 主要な発見点

    • 1. データ量より質がより重要。1M未満のデータでも意味のある事後学習が可能。量的多様性は偏りの緩和と安定性に有効だが、最も重要なのはキュレーションされた高品質データである
    • 2. 明確な嗜好中心のデータ収集が必要。一般的な公開データセットは意図しない偏りと「AI look」への回帰、単純な構図/色の偏りなどの問題を引き起こす
      • テキスト再現、解剖学、構造など客観的目標にはデータの多様性が役立つが、鑑賞性など主観的目標には、混在より特化データの方が効率的
      • 複数の鑑賞性分布を混ぜると、誰も満足しない結果になり、多くのユーザーがLoRAなど後処理手法に依存する傾向が生まれることも指摘

未来研究方向およびまとめ

  • Krea 1は美学的基準と品質を重視するクリエイターにとっての第一歩であり、オープンソースコミュニティの拡大を期待
  • 今後はコア能力の強化、より多様なビジュアルドメインのサポート、個別化・コントロール可能性研究を通じて、ユーザーの美的嗜好に合ったモデル提供を目指す
  • GitHub( https://github.com/krea-ai/flux-krea )を参照

1件のコメント

 
GN⁺ 2025-08-02
Hacker Newsのコメント
  • こんにちは、みなさん。Kreaの共同創業者兼CTOです。私たちのモデルの重みを公開してHNコミュニティと共有したいと、以前からずっと考えていました。今日はできる限りオンラインにいるので、気になることがあればお答えします
    • Fluxの「Kontext」版、つまり編集モデルをサポートする予定があるのか気になります。プロンプトベースの画像編集は活用の余地がとても大きそうです。オープンウェイト版の品質はまだ見ていませんが、デモは非常に印象的でした。ちなみにこのモデルも12Bです
    • この公開の目的は何なのか気になります。事業的にどんな目標があるのか、それとも本当に純粋な貢献なのか知りたいです
    • 英語以外の言語もサポートするモデルが必要です
    • P(.|photo) vs P(.|minimal) の例について、実際にこの衝突をどう判断しているのか気になります。私としては、写真のリアリズムがデフォルトであるべきだと思います。たとえばユーザーが「本を読む猫」と書いたら、AIっぽいスタイルやイラストではなく、実際の猫が本を読んでいる姿が出るのが自然ではないでしょうか。特に文脈がなければ、「猫」は写実的な猫として解釈するのが当然に感じられます。もしユーザーがイラストなど別のスタイルを望むなら、プロンプトに明確に書くべきではないかと思うのですが、何か私が見落としているニュアンスがあるのでしょうか
  • 良い公開です。12b Txt2Img Kreaモデルで簡単に試してみました。最も優れている点は高速さ(そしておそらくリアリズム)です。ただし unsurprisingly、<i>prompt adherence</i> では通常のFlux.1Dモデルより高いスコアは取れませんでした。結果は https://genai-showdown.specr.net で見られます。一方で、Wan 2.2+ は今後T2I分野で大きな役割を果たす可能性がありそうですが、画像の多様性不足を補うにはLoRAが大量に必要になるかもしれません
    • テスト結果が見られるURLを教えてもらえますか。あと参考までに、このモデルは <i>aesthetics</i> により重点を置いていて、プロンプトの正確性だけを追求したものではありません。サンプルがいまひとつだったことの言い訳ではなく、それが研究目標の一つだったことを強調したいです。いわゆる「flux look」と呼ばれる独特のスタイルを取り除きたいなら、必ず考慮すべきトレードオフです。それから、Wan 2.2でベース画像を作ってKreaでリファインする人もいて、かなり興味深い手法だと思います
  • こんにちは!私はKrea-1 FLUX.1のリードリサーチャーです。KreaはKrea-1からdistillした12B Rectified Flow Modelで、FLUXアーキテクチャと互換になるよう設計されています。技術的な質問があれば答えられます
    • 私は伝統的なメディア制作の出身です。メディアを複数レイヤーに分けて組み合わせる手法は、コスト管理と品質管理の要です。ところが現在のAI画像・動画・音声生成は、こうしたやり方をサポートしていません。ForgeUIが一時的に対応していましたが中止されました。実際の大規模メディア制作要件を理解していないからだと思います。実際の映画VFX、アニメーション広告、数百万ドル規模の制作経験を持つ人がチームにいるのか気になります。成功したいなら、従来のメディア制作のやり方を必ず支援すべきです。既存のAIツールはプロダクションツールや現場の期待とまったく連携していないため、現場で採用されていません
    • モデルの品質は本当に素晴らしいです。特に「flux-dev-rawは guidance distilled model なので、カスタム損失関数を作って classifier-free guided 分布に直接ファインチューニングした」という部分が印象的でした。これについて詳しい説明やファインチューニングのコツがあればぜひ聞きたいです。オープンソースAIアートコミュニティでも、original distilled flux-devのファインチューニングは非常に難しいので気になっています
    • 「FLUXアーキテクチャと互換になるよう設計した」とはどういう意味で、なぜそれが重要なのか説明してもらえますか
  • 23.8GBのsafetensorファイルというのが、12Bパラメータモデルとしては少し理解しづらいです。1Bパラメータなら1GBのVRAMが必要だと思っていたのですが、このモデルは24GBのVRAMを使うのか12GBを使うのか気になります。私の理解が間違っているのでしょうか
    • bfloat16で計算すると 1B x 16bit = 2GB なので、12Bならほぼ24GBで合っています。float32をbfloat16に落としても性能低下はほとんどないので、bfloat16でアップロードしているのです
    • パラメータごとにfloatのサイズは異なります。多くのモデルはFP8(8bit/パラメータ)で配布されますが、このモデルはFP16(16bit)です。FP16で学習してからFP8やFP4に量子化して配布することもよくあります
    • 8bitに量子化されたモデルなら 1B=1GB と見なせますが、16bitや32bitならその2〜4倍必要です
  • シンプルなプロンプトで面白い結果が出ました: "Octopus DJ spinning the turntables at a rave." DJに現れる人間の手が印象的です。どれだけプロンプトを工夫してもこの手を消せませんでした。論文で触れられていた通り、たしかに opinionated です
    • "Octopus DJ with no fingers" とプロンプトを入れると手は消えましたが、同時にタコの人間的な特徴もすべて消えて、純粋なタコがターンテーブルを回しているだけになりました
  • 私がいつも欲しい画像はGalton boardです。上部に少し離れた2つの穴があり、そこから球が落ちてきて、片方は青い球、もう片方は赤い球です。下では2色が合わさった分布になり、カラムが二重正規分布を示します。参考画像: https://imgur.com/a/DiAOTzJ (上部に2つの注ぎ口)。実際の試行結果: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • 実際に現実で作ってみたことはありますか。double Galton board の動画が見つかりませんでした
  • hey hn! 私はKreaの共同創業者です。FLUX Kreaをどうトレーニングしたかをまとめたブログ記事があるので、詳しく知りたい方は参考にしてください: https://www.krea.ai/blog/flux-krea-open-source-release
    • 本題からは外れますが、本当にウェブサイトでスクロールバーを隠しているのでしょうか。なぜそうしたのか理解できません。
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • NVIDIA最適化版を提供する予定はありますか。RTXアクセラレーションされたFLUX.1 Kontextのようなものです: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Kreaでは専用のRTXアクセラレーション版は作っていません。ただしモデルは既存のFLUX.1 devコードベースと完全に互換です。別個のONNX exportもないようです。SVDQuantで4〜8bit量子化版を作るのは、チェックポイントをより一般的なハードウェアで扱いやすくする良い次の課題です
  • 参考リンクまとめ:
  • 企業が望む成果物を得られたときに商用利用権を明確にライセンスできるよう、よく文書化された導線を用意することを勧めます(そのうち分かるはずです!)