9 ポイント 投稿者 xguru 2024-02-23 | 1件のコメント | WhatsAppで共有
  • Stable Diffusion 3は、最も優れたテキスト-画像モデルとして、マルチトピックプロンプト、画像品質、スペル能力で大幅に向上した性能を提供します
  • まだ一般公開はされていませんが、アーリープレビュー向けのウェイティングリスト受付を開始しました
  • このプレビュー段階は、前モデルと同様に、性能と安全性を向上させるための知見を得るうえで重要です

モデルの範囲と技術

  • Stable Diffusion 3モデルスイートは、800Mから8Bパラメータのレンジを持っています
  • このアプローチは中核的価値観に合致し、誰もがアクセスできることを目指しつつ、ユーザーの創造的ニーズに最も適した拡張性と品質の幅広いオプションを提供します
  • SD3はDiffusion TransformerアーキテクチャとFlow Matchingを組み合わせています
  • 詳細な技術レポートはまもなく公開される予定です

安全で責任あるAIの実践

  • 安全かつ責任あるAI実践を重視しています
  • Stable Diffusion 3の悪用を防ぐために合理的な対策を講じており、これはモデル訓練の初期段階からテスト、評価、デプロイメントまで一貫して継続しています
  • 初期プレビューの準備にあたり、複数の安全対策を導入しています
  • 研究者、専門家、コミュニティと継続的に協力し、モデル公開に向けた取り組みを進めるにつれ、さらに進化させられることを期待しています

コミットメントと創造性の促進

  • 生成AIをオープンで安全、かつ誰もがアクセスできる形で提供するというコミットメントは堅固です
  • Stable Diffusion 3を通じて、個人、開発者、企業がクリエイティビティを発揮できる適応可能なソリューションを提供します
  • Stable Diffusion 3のリリース前に他の画像モデルを商用利用したい場合は、Stability AIメンバーシップページを訪問するか、開発者プラットフォームからAPIへアクセスできます

1件のコメント

 
xguru 2024-02-23

Hacker Newsコメント

  • 新しい種類の拡散トランスフォーマーを使い、フロー一致やその他の改善点を組み合わせています。

    • トランスフォーマーの改善を活用し、さらに大規模化が可能で、マルチモーダル入力を受け取れるようにしています。
    • 品質と安全性を高めるため公開予定で、全体のツールエコシステムとともにリリースされる予定です。
    • 最先端ハードウェアを活用する新しい基盤で、あらゆるサイズで提供されます。
    • 動画、3D などを可能にします。
    • より多くのGPUが必要です。
    • 技術的な詳細はまもなく公開されます。
    • 十分なGPUと良質なデータがあれば、Soraに近い動画生成が可能です。
    • 800万から80億パラメータまでの幅広いサイズで提供され、あらゆる種類のGPUで利用できます。
  • 安全性へのこだわりは、最近のジェミニー事件を考えると、マーケティングの機会を逃しているようです。

    • 安全性が過剰で、ほとんどの画像がぼやけて出てしまい、以前のバージョンで動いたプロンプトがSDXLではぼやけてしまいます。
    • 次のバージョンもこれと同じなら、Stability APIの使用をやめるつもりです。
    • 過剰なぼかしなしでStable Diffusionと同等の価値と品質を提供する他のテキスト-画像サービスがあるのか気になります。
  • 現在の検閲状況を考えると、今回の「安全」が何を意味するのかを見てみるのが面白いです。

    • DALL·Eでゲームアセット用の武器画像を作成しようとしたところ、かなりの困難を経験しました。
  • 発表文の半分は「我々は本当に責任があり安全である」といった内容です。

  • デモ画像はすべて「アートワーク」です。

    • このモデルが写真、技術図面、その他のグラフィックメディアもうまく生成できるのか気になります。
  • テキスト/スペルの部分は大きな進歩です。

  • 「安全」の部分は書き換えられていますが、AIツールの代わりに『Big Knife』という架空のナイフに置き換えられています。

    • 「安全で、責任あるBig Knifeの使い方を信じます。これは、悪意ある行為者によるBig Knifeの乱用を防ぐために、合理的な対策を講じたことを意味します。」