8 ポイント 投稿者 GN⁺ 2025-06-29 | 1件のコメント | WhatsAppで共有
  • FLUX.1 Kontext [dev] は、これまで独占的だった生成画像編集モデルのオープンウェイト版として無償公開された
  • 12Bパラメータでコンシューマー向けハードウェア上でも動作可能で、無料の研究用途および非商用用途向けに配布される
  • 細かなローカル/グローバル編集、キャラクターの一貫性維持、反復的な修正など、商用レベルの高品質な画像編集性能を提供し、ComfyUI・Hugging Face Diffusers・TensorRT などの人気フレームワークとすぐに連携可能
  • 性能評価では既存の公開モデルおよびクローズドモデル(例: Google's Gemini-Flash Image)を上回る結果を示した
  • NVIDIA Blackwellアーキテクチャ向けに最適化されたTensorRT派生版(BF16, FP8, FP4)も提供され、最新ハードウェアで大幅に向上した速度と効率を実現
  • 商用ライセンスとセルフサービスポータルにより、ビジネスでも容易に統合・活用できる

紹介と重要性

  • FLUX.1 Kontext [dev] は Black Forest Labs が公開した最新の生成画像編集モデル
  • これまで優れた画像生成/編集モデルの多くは独占的に提供されてきたが、今回オープンウェイトとなり、誰でも研究および非商用目的で利用できるようになった
  • このモデルは 12Bパラメータで構成され、高い性能を示しながらも、一般的なコンシューマーハードウェアで動作できる効率性を備える

公開とアクセス性

  • FLUX.1 Kontext [dev] は FLUX.1 非商用ライセンスの下で公開され、研究および非商用目的のユーザーに無償提供される
  • モデルウェイトは Hugging Face から簡単にダウンロードでき、ComfyUI、Hugging Face Diffusers、TensorRT など主要なAIフレームワークと互換性がある
  • FAL、Replicate、Runware、DataCrunch、TogetherAI などのパートナーが、クラウドおよびローカル環境ですぐ使える APIエンドポイント とコードを提供している

画像編集分野の新たな標準

  • FLUX.1 Kontext [dev] は 画像編集作業に特化している
    • 反復的な編集や多様なシーン・環境における キャラクター保持 に優れる
    • 高精度なローカル編集および全体編集 をサポート
  • Black Forest Labs は プロプライエタリモデルに匹敵するオープンツール の提供を目指している
  • 大規模ベンチマーク(KontextBench など)で、ByteDance Bagel、HiDream-E1-Full など既存の公開モデルや Google Gemini-Flash Image などの商用モデルに対して優位な性能を実証
  • Artificial Analysis など外部機関の独立評価でも同様の結果が確認された

ハードウェア最適化と多様な選択肢

  • NVIDIA と協力し、最新の Blackwellアーキテクチャ 向けに最適化された TensorRT ウェイト(エネルギー効率と速度を最適化した BF16、FP8、FP4 版)を提供
  • 開発者は必要に応じて 速度・効率・品質のバランス を簡単に選択できる

商用活用のためのライセンスとポータル

  • Black Forest Labs は透明な条件の セルフサービスライセンスポータル を開設し、すべてのオープンウェイトモデルに対する商用/非商用アクセスを簡素化した
  • 企業はポータルで簡単にライセンスを購入し、FLUX.1 系列モデルをビジネスサービスへ迅速に統合できる

ライセンス更新事項

  • 非商用目的の定義を明確化し、許容範囲と制限 を具体的に提示
  • コンテンツフィルター条項 を追加し、違法/権利侵害コンテンツの生成を防止するとともに、これに関する免責条項を補完
  • コンテンツの出所および生成履歴の管理 は関連法令を順守するよう規定
  • 許可されない利用事例について、明確な例示と制限事項を追加

参考資料とサポート

1件のコメント

 
GN⁺ 2025-06-29
Hacker Newsの意見
  • BFLが重みを公開したのは本当に素晴らしい点であり、オープンソースの財政的持続可能性が難しい現実の中で、学術界には無料で提供し、スタートアップには合理的なライセンス費用を課す方式は、BFLや他社が今後もオープンウェイトモデルを出し続けられるようにする仕組みだと思う

    • もしBFLが利用するすべての画像・動画ベースのコンテンツについて、事前に明示的な利用許諾料を支払わなければならないなら、そのやり方では財政的に持続不可能だと思う
  • オープンウェイトを公開することで、この種の編集モデルに新しい機能(タスク)を追加できるのは興味深い特徴だ

    • 少ないサンプル(30件程度)でも汎化がうまくいく様子であり、これをブログで共有していた
      • 今回のKontextは皆が待っていたバージョンで、はるかに実用的に感じられる
      • トレーニング可能な新世代の画像生成モデルの最初の事例であり、Gemini、GPT、MJなど既存の大規模モデルでは不可能だった部分だ
  • distillされたDevモデルが、より大きなPro/Maxモデルと比べても十分に性能を維持してくれることを期待している

    • 最近のStable Diffusionのような旧式のインペインティング手法を、このモデルが多くの面で完全に置き換えられることを願っている
    • Kontextを使った画像編集のビフォーアフター実験はこちらで確認できる
  • 先週サンフランシスコで開かれたハッカソンでこのシステムを実際に使ってみたが、かなり印象的だった

    • そのハッカソンで人々がどんなプロジェクトを作ったのか気になる
  • ライセンスの意図が、アクセスする人そのものを制限する一種の事前フィルタリングとして機能しているように感じる

    • 形式的には開かれていても、実際には適用範囲が狭まり、このような設定が誰が挑戦できるかを定型化する効果を持つ
    • 濫用を防ぐ利点はあるが、有用な用途まで切り落とされる可能性があり、結果として新しい実験の基準さえ微妙に変えてしまう傾向がある
  • 新たに適用された非商用利用ライセンスはかなり厳しい規定で、ライセンス全文を参照すればよい

    • このライセンスを正しく解釈すると、派生物ではなく単なる成果物の生成を目的とする場合であっても、商用環境では使用できない
    • ライセンスが正確に何に適用されるのか疑問で、おそらく容易に再実装できるPythonコード程度を除けば、著作権は存在しないのではないかと思う
    • モデルの重みは企業が望むほど著作権を付与できる創作物ではなく、著作権の法的定義にも当てはまらないという立場だ
    • データベースやソフトウェアとは異なり、モデルの重みは著作権要件を満たしておらず、どれだけ創作性が込められているかに関係なく、著作権保護の対象ではないことを強調している
  • Kontextのようなモデルを、リアルタイムでキャンバス上でAIと協業しながら絵を完成させていく形で活用したい

    • LLM分野の時系列予測の革新やGoogle Quick Drawデータセットのようなものを組み合わせて、ブラシと対話しながら絵を完成させる「リアルタイム・ペインティング・パートナー」のような体験が出てきてほしいと本当に願っている
      • Fal.aiのKontextモデルを使ってみると、ビフォーアフター変換スライダーと、編集画像によって継続的に修正できる機能が印象的だ
      • BFLがdevモデルまで公開したのだから、既存のStable Diffusion向けプラグインがすでにあるKrita向けのKontextプラグインもぜひ出てほしい
      • Kritaプラグイン参考リンク
  • このシステムがどの程度のVRAMで動作するのか気になる

    • 現時点では約18〜20GBのVRAMが必要だが、明日か近い将来には、1時間程度の余裕時間さえあれば4GBのVRAMでも動作するかもしれない
  • ライセンスが制約的なのが残念だ