Flux - 120億パラメータのオープンソース Text-To-Image モデル

(blog.fal.ai)

8 ポイント投稿者 GN⁺ 2024-08-02 | 1件のコメント | WhatsAppで共有

Black Forest Labsが開発した、最大規模のSOTAオープンソーステキスト・画像モデル
- Stable Diffusionを開発したオリジナルチーム
120億パラメータで創造性と性能の限界を広げ、Midjourneyに近い画像生成機能を提供

3つのモデルを提供

FLUX.1 [dev]: 非商用ライセンスでオープンソース化された基本モデル。コミュニティがこれを基盤に構築可能
FLUX.1 [schnell]: 基本モデルの蒸留版で、最大10倍高速に動作。Apache 2ライセンス。
FLUX.1 [pro]: API経由でのみ利用できる非公開版

主な特徴

向上した画像品質: 高解像度の驚くべきビジュアルを生成可能
高度な人体解剖表現とフォトリアリズム: 非常に現実的で、解剖学的に正確な画像を生成可能
改善されたプロンプト準拠: 入力に基づく、より正確で関連性の高い画像を生成可能
優れた速度: 高需要アプリケーションに最適なFlux Schnellの速度と効率性

falの統合

falの最先端推論エンジンを統合し、Fluxモデルをeager torchより最大2倍高速に実行可能
高速な処理時間と優れた品質・ディテールを維持

GN⁺のまとめ

FluxはBlack Forest Labsが開発した最新のテキスト・画像モデルで、創造性と性能の新たな基準を提示
さまざまな派生モデルを通じて、多様なユースケースに合わせたソリューションを提供
向上した画像品質と現実的な表現力により、高需要アプリケーションに適している
falの推論エンジンにより、さらに高速で効率的なモデル実行が可能
類似機能を持つ他のプロジェクトにはDALL-EやMidjourneyがある

1件のコメント

GN⁺ 2024-08-02

Hacker Newsの意見

burkay from fal.ai: このモデルはfalが作ったものではなく、Black Forest Labsが制作したもの
- fal.aiはこのモデルを最適化された推論エンジン上で動かし、非常に高速に動作するようにしている
- playgroundでモデルを試せる
- [schnell] モデルはApacheライセンスでHugging Face上にオープンソースとして公開されている
- テキストレンダリングが非常に高速で優れており、テキストと位置をよりよく扱えるテキストエンコーダーがある
- テキストレンダリングが改善されると、学習データ中のテキストウォーターマークがよりはっきり現れる
- モデルを試せるリンクを提供
  - FLUX.1 [schnell]: Apache 2.0、オープンウェイト、ステップ蒸留
  - FLUX.1 [dev]: 非商用、オープンウェイト、ガイド蒸留（ログイン必要）
  - FLUX.1 [pro]: クローズドソース、SOTA、生データ（API経由でのみ利用可能）
別のユーザー: ほとんどの比較では新しいモデルが適切にテストされていない
- 現在の市場で最も良いプロンプト追従性はDALL-E 3だが、複雑な概念では依然として不十分で、検閲も多い
- FluxとDALL-E 3を比較した結果、Fluxは印象的で性能が高い
- 比較結果をブログに掲載した
別のユーザー: ideogramのプロンプトを使ってテストしたところ、Fluxは非常に良い画像を生成した
- ideogramを使ってみたが、フィルターが気に入らない
- ローカルで実行できるなら、画像品質とプロンプト追従性の面で非常に近い
- テキストが複雑な場合は、はっきり書けない
- 例としてideogram画像のプロンプトを提示
- Stable Diffusion系モデルはかなり前に使わなくなっており、技術が複雑になりすぎて面白みがなくなった
- フィルターなしでローカル実行できるideogramのようなシステムが欲しい
- このモデルはとても良い
別のユーザー: 新しいモデルを見るたびに、エンジニアリング図を作れるかどうか確認している
- このモデルはまだエンジニアリング図をうまく扱えない
- AI企業がエンジニアリング図の問題を解決してくれることを望む
- 現在の学習データセットには含まれていない可能性が高い
- 合成データセット／ベンチマークを作りたい
別のユーザー: 登録手続きが面倒
- GitHubアカウントの作成で現在エラーが発生し、2回の試行と2つのブラウザが必要だった
別のユーザー: ベンチャー資金の支援を受けるスタートアップが、ビジネスモデルなしに無料モデルを出し続けている
- オープンソースは支持するが、長期的に持続可能なのか心配
別のユーザー: 印象的な品質
別のユーザー: 空間関係をうまく扱えない
- "逆さまの家" -> 普通の家
- "犬の上に座っている馬" -> 馬と犬が並んでいる
- "上下逆さまのLockheed Martin F-22 Raptor" -> 誤った結果

Flux - 120億パラメータのオープンソース Text-To-Image モデル

3つのモデルを提供

主な特徴

falの統合

GN⁺のまとめ

関連記事

1件のコメント

Hacker Newsの意見