8 ポイント 投稿者 GN⁺ 2024-08-02 | 1件のコメント | WhatsAppで共有
  • Black Forest Labsが開発した、最大規模のSOTAオープンソース テキスト・画像モデル
    • Stable Diffusionを開発したオリジナルチーム
  • 120億パラメータで創造性と性能の限界を広げ、Midjourneyに近い画像生成機能を提供

3つのモデルを提供

  • FLUX.1 [dev]: 非商用ライセンスでオープンソース化された基本モデル。コミュニティがこれを基盤に構築可能
  • FLUX.1 [schnell]: 基本モデルの蒸留版で、最大10倍高速に動作。Apache 2ライセンス。
  • FLUX.1 [pro]: API経由でのみ利用できる非公開版

主な特徴

  • 向上した画像品質: 高解像度の驚くべきビジュアルを生成可能
  • 高度な人体解剖表現とフォトリアリズム: 非常に現実的で、解剖学的に正確な画像を生成可能
  • 改善されたプロンプト準拠: 入力に基づく、より正確で関連性の高い画像を生成可能
  • 優れた速度: 高需要アプリケーションに最適なFlux Schnellの速度と効率性

falの統合

  • falの最先端推論エンジンを統合し、Fluxモデルをeager torchより最大2倍高速に実行可能
  • 高速な処理時間と優れた品質・ディテールを維持

GN⁺のまとめ

  • FluxはBlack Forest Labsが開発した最新のテキスト・画像モデルで、創造性と性能の新たな基準を提示
  • さまざまな派生モデルを通じて、多様なユースケースに合わせたソリューションを提供
  • 向上した画像品質と現実的な表現力により、高需要アプリケーションに適している
  • falの推論エンジンにより、さらに高速で効率的なモデル実行が可能
  • 類似機能を持つ他のプロジェクトにはDALL-EやMidjourneyがある

1件のコメント

 
GN⁺ 2024-08-02
Hacker Newsの意見
  • burkay from fal.ai: このモデルはfalが作ったものではなく、Black Forest Labsが制作したもの

    • fal.aiはこのモデルを最適化された推論エンジン上で動かし、非常に高速に動作するようにしている
    • playgroundでモデルを試せる
    • [schnell] モデルはApacheライセンスでHugging Face上にオープンソースとして公開されている
    • テキストレンダリングが非常に高速で優れており、テキストと位置をよりよく扱えるテキストエンコーダーがある
    • テキストレンダリングが改善されると、学習データ中のテキストウォーターマークがよりはっきり現れる
    • モデルを試せるリンクを提供
      • FLUX.1 [schnell]: Apache 2.0、オープンウェイト、ステップ蒸留
      • FLUX.1 [dev]: 非商用、オープンウェイト、ガイド蒸留(ログイン必要)
      • FLUX.1 [pro]: クローズドソース、SOTA、生データ(API経由でのみ利用可能)
  • 別のユーザー: ほとんどの比較では新しいモデルが適切にテストされていない

    • 現在の市場で最も良いプロンプト追従性はDALL-E 3だが、複雑な概念では依然として不十分で、検閲も多い
    • FluxとDALL-E 3を比較した結果、Fluxは印象的で性能が高い
    • 比較結果をブログに掲載した
  • 別のユーザー: ideogramのプロンプトを使ってテストしたところ、Fluxは非常に良い画像を生成した

    • ideogramを使ってみたが、フィルターが気に入らない
    • ローカルで実行できるなら、画像品質とプロンプト追従性の面で非常に近い
    • テキストが複雑な場合は、はっきり書けない
    • 例としてideogram画像のプロンプトを提示
    • Stable Diffusion系モデルはかなり前に使わなくなっており、技術が複雑になりすぎて面白みがなくなった
    • フィルターなしでローカル実行できるideogramのようなシステムが欲しい
    • このモデルはとても良い
  • 別のユーザー: 新しいモデルを見るたびに、エンジニアリング図を作れるかどうか確認している

    • このモデルはまだエンジニアリング図をうまく扱えない
    • AI企業がエンジニアリング図の問題を解決してくれることを望む
    • 現在の学習データセットには含まれていない可能性が高い
    • 合成データセット/ベンチマークを作りたい
  • 別のユーザー: 登録手続きが面倒

    • GitHubアカウントの作成で現在エラーが発生し、2回の試行と2つのブラウザが必要だった
  • 別のユーザー: ベンチャー資金の支援を受けるスタートアップが、ビジネスモデルなしに無料モデルを出し続けている

    • オープンソースは支持するが、長期的に持続可能なのか心配
  • 別のユーザー: 印象的な品質

  • 別のユーザー: 空間関係をうまく扱えない

    • "逆さまの家" -> 普通の家
    • "犬の上に座っている馬" -> 馬と犬が並んでいる
    • "上下逆さまのLockheed Martin F-22 Raptor" -> 誤った結果