HN紹介: SDXL Lightningを使ったリアルタイム画像生成 (fastsdxl.ai) 1 ポイント 投稿者 GN⁺ 2024-02-23 | 1件のコメント | WhatsAppで共有 関連記事 SDXL Turbo - リアルタイムのテキスト-to-画像生成モデル 13 ポイント · 1件のコメント · 2023-11-30 AIが誤って生成した画像でStable Diffusion XLをさらに賢くファインチューニングしました 7 ポイント · 2件のコメント · 2023-08-22 「自分だけの想像が作品になる」AI画像生成ツール完全入門ガイド 17 ポイント · 0件のコメント · 2023-05-07 Stability AI、Stable Diffusion XL 1.0モデルを発表 9 ポイント · 2件のコメント · 2023-07-28 SD-Forge-LayerDiffuse - Stable Diffusion XLを使って透明画像を生成する 12 ポイント · 0件のコメント · 2024-03-06 1件のコメント GN⁺ 2024-02-23 Hacker Newsのコメント 昨日これを Groq と組み合わせて使い、Neal Agrawalの無限おもしろゲームをChrome拡張で拡張してみた。絵文字だけでなく実際の画像を生成できるようにした ほぼリアルタイムに近い画像生成とLLM生成は未来のように感じる。プロンプト作成にはGroqのMixtralを使い、リアルタイム生成にはFal APIを使った https://x.com/altryne/status/1760561501096575401?s=20 これを横スクロールゲームにして、進行に合わせて背景が扱う単語のレンダリングへ段階的かつ自然に遷移するとよさそう デモ序盤の青い風景が終盤の画像にある乾いた山岳地形へゆっくり変わり、前景には鳥のキャラクターが登場する様子を想像している カードベースのゲームに変えられるかも気になる 本当に良さそう。Chrome拡張を共有してもらえる可能性があるのか気になる 記録として残しておくと、SDXL Lightning はHugging Faceで比較的寛容なライセンスのもと公開されているオープンソース: https://huggingface.co/ByteDance/SDXL-Lightning ほかのUIもいくつかある。例: https://replicate.com/lucataco/sdxl-lightning-4step その通り。内部的にはByteDanceがStable Diffusion XL上で学習し、オープンソースとして公開した SDXL Lightning を使っている これに独自の推論エンジンとリアルタイムインフラを加えて、ほかのUIより滑らかな体験を提供している。速度面ではほとんど比較にならないと思っていて、こちらでは4ステップが約 370ms なのに対し、リンク先のreplicateの例は約2〜3秒程度 Gradioでもデモを作ったが、fal.aiより2倍遅い。単一のA10Gで stable-fastコンパイル を使っている https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag... GPU/CUDA/Dockerがあればローカルでも実行してみられる docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py ローカル推論ではメモリ使用量と速度がどの程度なのか気になる 速度は素晴らしい 品質については、今日みんながStable Diffusion 3やほかのモデルのテストに使っていたプロンプトを借りてみた: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat" 私が得た結果はこれ: https://imgur.com/a/XrAuqCB Stable Diffusion 3と比べると: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=... https://news.ycombinator.com/item?id=39467526 空間的なプロンプト遵守は、SDXLや以前のStable Diffusion系で全般的に弱い部分。Stable Diffusionが例のようにこの部分をうまく磨き込んでくれることを期待している 最新の公開重みStabilityモデルであるStable Cascadeでも同じ例を試してみたが、やはりあまり良くはない: https://fal.ai/models/stable-cascade?share=eab44060-690b-497... 私が得た結果はかなり正確: https://imgur.com/a/vH0zq5b シード: 3919562 シードを変えながら回すと結果が大きく変わる デモは本当に印象的だが、もっと滑らかならさらに驚異的だったと思う。今はたとえば単語を削除したり空白を追加したりすると、短時間に推論が4回走って、ぎこちなさが残る 意図的に段階ごとの結果を見せているのかもしれない。ちなみにこれはfal.aiのデモで、Stable Cascadeが公開された日の朝に彼らがデモを上げたときに初めて知った OpenAIの外で推論を回すならfal.aiを強くおすすめする。AI業界にほぼ3年いて、昨年からはほとんど24時間張り付いていたが、Falは論文上の数値ではなく実利用でここまで速くするために細部まで気を配っている初めてのサービスのように見える たとえば WebSocket接続 や、APIキーでリクエストに署名するためにエッジ関数を経由しなくて済むようにする短命JWTのような部分だ これほど速いなら、目標画像へ直接ジャンプするよりも、潜在空間内で滑らかな経路をたどって中間画像を生成するほうがよいかもしれない このデモは本当に気に入った。使いやすく、速く、直感的。この程度の品質をこんなに簡単に得られるのは驚き このデモと Groq は本当に驚きだった。少し前までは、アカウントを作ると無料生成が20回ほどもらえるサイトで、壊れた画像を1枚受け取るために長く待っていた記憶がある 今ではサインアップや CAPTCHA なしでウェブサイトに入り、電光石火の速さでテキストと画像を生成できるのはすごい。特に Groq と fal.ai がデモを完全に開放しておけるほどだという点まで含めると、2024年初めにこうした性能向上は予想できなかった 高速生成は画像品質の欠点もかなり相殺すると思う。失敗しても、良い結果はたいていシードを1つ変えるか、プロンプトを少し修正するだけの距離にあることが多い どうしてこんなに速いのか気になる。それと blob:[https://blbahblah](<https://blbahblah>) という画像が何なのか分からない ついでに言うと、プロンプトを少し変えると アライグマ に尻尾が2本生えやすい 2つ目の質問に答えると、それは オブジェクト URL です https://developer.mozilla.org/en-US/docs/Web/API/URL/createO... ファイルや Blob を画像要素などで使える URL に変換する仕組みです JavaScript のバッファを表す一時 URL です: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO... 本当に驚き。レイテンシの低減は、こうしたツールとのやり取りの仕方に大きな影響を与える ここでの速度面の利点は、単により多くの画像を生成できるというレベルを超えて、いろいろ試している間も同じ思考の流れを途切れさせずに続けられることにある 本当に印象的だが、Stable Diffusion で 一貫したキャラクター を生成する方法を知っている人がいるのか気になる 最初のプロンプトが猫と話している少女で、2つ目のプロンプトがその猫と遊んでいる少女なら、2枚の絵で少女と猫が同じに見えてほしい 可能なら関連リンクやチュートリアルがあるととても助かる 記憶では Dashtoon Studio は Stable Diffusion で一貫したキャラクターが出る漫画を作れるようにしてくれる: https://dashtoon.com/create Dashtoon Studio で可能。画像を1枚アップロードするだけでも 一貫したキャラクター LoRA を学習してくれる。AI漫画制作用のソフトウェアで、YouTube でこの動画を見つけた: https://www.youtube.com/watch?v=EEQwEvKQGvE LoRA が最も汎用性が高いほうだと思う。望むポーズやカメラアングルでキャラクターを一貫して得られるから。IP-Adapter は入力画像の特徴を複製しすぎるし、ポーズのように複製したくない要素を選ぶのが難しい。そのため、ポートレート入力のキャラクターに別の行動をさせるのが難しくなり得る Reactor は顔を差し替える生成画像が必要。写実的な画像ではうまく機能するが、スタイル化された画像ではスタイルが維持されず、髪型もコピーされない これまで見つけた中では Dashtoon が最も安定していて簡単だった。新しいキャラクター画像を20枚集めるのも難しいし、LoRA の学習セットではクローズアップの数や表情の数といった画像の属性がかなり重要だから https://scenario.gg を確認してみる価値がある。キャラクターのカスタム画像で自分で LoRA を学習させられ、良い一貫性を得るには複数の角度からの画像がだいたい20枚ほど必要 より単純だが、それでもかなり良い方法として IP-Adapter もあり、このサービスでもサポートしている。猫を一貫して保つのは、カスタム LoRA なしでは難しそう。参考資料: https://help.scenario.com/training-a-character-lora たいていは名前を使うだけでも十分。良い SD モデルでは Maria Smith はほぼ常に Maria Smith のように見える Mickey はかなり一貫して見える: https://fastsdxl.ai/share/4us7hrp3jm20 単一の文字を入れたときの挙動が興味深い。自分の場合は、小さくてかなり細かい建物に収束することが多いようだ 同じ文字をより多く繰り返すほど、たとえば 111 より 11111111 にすると、建物がさらに奇妙になる。今見ると シード にかなり敏感なようだ 未知の単語や概念は、出力に実質的な影響を与えない。プロンプトで baby raccoon を maxolhx に置き換えてみると、その単語を無視してイタリア人の花嫁をレンダリングする 厳密にはそれでも影響はあるが、私たちが簡単に説明できる形ではない。ほとんどシードで遊んでいるようなもの 本当に気に入った。URL共有ができるといいと思う late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1 このプロンプトの結果は素晴らしかった 普通の人はこう見える: https://fastsdxl.ai/share/1mb3d5lo5ic9 ヒーローはこう見える: https://fastsdxl.ai/share/x9jxax4pnljd テロリストはこう見える: https://fastsdxl.ai/share/ejtyvv9ahpfs 自分がなりたい人はこう見える: https://fastsdxl.ai/share/8ekkecm5rqsr 高速なおかげで、シードだけを変えながら内在するバイアスを素早く評価できるので、とても興味深い たった今、共有機能を追加した。何を作っているのか教えてほしい シードを提供していれば共有できた気がする
1件のコメント
Hacker Newsのコメント
昨日これを Groq と組み合わせて使い、Neal Agrawalの無限おもしろゲームをChrome拡張で拡張してみた。絵文字だけでなく実際の画像を生成できるようにした
ほぼリアルタイムに近い画像生成とLLM生成は未来のように感じる。プロンプト作成にはGroqのMixtralを使い、リアルタイム生成にはFal APIを使った
https://x.com/altryne/status/1760561501096575401?s=20
デモ序盤の青い風景が終盤の画像にある乾いた山岳地形へゆっくり変わり、前景には鳥のキャラクターが登場する様子を想像している
記録として残しておくと、SDXL Lightning はHugging Faceで比較的寛容なライセンスのもと公開されているオープンソース: https://huggingface.co/ByteDance/SDXL-Lightning
ほかのUIもいくつかある。例: https://replicate.com/lucataco/sdxl-lightning-4step
これに独自の推論エンジンとリアルタイムインフラを加えて、ほかのUIより滑らかな体験を提供している。速度面ではほとんど比較にならないと思っていて、こちらでは4ステップが約 370ms なのに対し、リンク先のreplicateの例は約2〜3秒程度
https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
GPU/CUDA/Dockerがあればローカルでも実行してみられる
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py速度は素晴らしい
品質については、今日みんながStable Diffusion 3やほかのモデルのテストに使っていたプロンプトを借りてみた: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
私が得た結果はこれ: https://imgur.com/a/XrAuqCB
Stable Diffusion 3と比べると: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
最新の公開重みStabilityモデルであるStable Cascadeでも同じ例を試してみたが、やはりあまり良くはない: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
シード: 3919562
デモは本当に印象的だが、もっと滑らかならさらに驚異的だったと思う。今はたとえば単語を削除したり空白を追加したりすると、短時間に推論が4回走って、ぎこちなさが残る
意図的に段階ごとの結果を見せているのかもしれない。ちなみにこれはfal.aiのデモで、Stable Cascadeが公開された日の朝に彼らがデモを上げたときに初めて知った
OpenAIの外で推論を回すならfal.aiを強くおすすめする。AI業界にほぼ3年いて、昨年からはほとんど24時間張り付いていたが、Falは論文上の数値ではなく実利用でここまで速くするために細部まで気を配っている初めてのサービスのように見える
たとえば WebSocket接続 や、APIキーでリクエストに署名するためにエッジ関数を経由しなくて済むようにする短命JWTのような部分だ
このデモは本当に気に入った。使いやすく、速く、直感的。この程度の品質をこんなに簡単に得られるのは驚き
今ではサインアップや CAPTCHA なしでウェブサイトに入り、電光石火の速さでテキストと画像を生成できるのはすごい。特に Groq と fal.ai がデモを完全に開放しておけるほどだという点まで含めると、2024年初めにこうした性能向上は予想できなかった
高速生成は画像品質の欠点もかなり相殺すると思う。失敗しても、良い結果はたいていシードを1つ変えるか、プロンプトを少し修正するだけの距離にあることが多い
どうしてこんなに速いのか気になる。それと
blob:[https://blbahblah](<https://blbahblah>)という画像が何なのか分からないついでに言うと、プロンプトを少し変えると アライグマ に尻尾が2本生えやすい
https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
ファイルや Blob を画像要素などで使える URL に変換する仕組みです
本当に驚き。レイテンシの低減は、こうしたツールとのやり取りの仕方に大きな影響を与える
ここでの速度面の利点は、単により多くの画像を生成できるというレベルを超えて、いろいろ試している間も同じ思考の流れを途切れさせずに続けられることにある
本当に印象的だが、Stable Diffusion で 一貫したキャラクター を生成する方法を知っている人がいるのか気になる
最初のプロンプトが猫と話している少女で、2つ目のプロンプトがその猫と遊んでいる少女なら、2枚の絵で少女と猫が同じに見えてほしい
可能なら関連リンクやチュートリアルがあるととても助かる
LoRA が最も汎用性が高いほうだと思う。望むポーズやカメラアングルでキャラクターを一貫して得られるから。IP-Adapter は入力画像の特徴を複製しすぎるし、ポーズのように複製したくない要素を選ぶのが難しい。そのため、ポートレート入力のキャラクターに別の行動をさせるのが難しくなり得る
Reactor は顔を差し替える生成画像が必要。写実的な画像ではうまく機能するが、スタイル化された画像ではスタイルが維持されず、髪型もコピーされない
これまで見つけた中では Dashtoon が最も安定していて簡単だった。新しいキャラクター画像を20枚集めるのも難しいし、LoRA の学習セットではクローズアップの数や表情の数といった画像の属性がかなり重要だから
より単純だが、それでもかなり良い方法として IP-Adapter もあり、このサービスでもサポートしている。猫を一貫して保つのは、カスタム LoRA なしでは難しそう。参考資料: https://help.scenario.com/training-a-character-lora
単一の文字を入れたときの挙動が興味深い。自分の場合は、小さくてかなり細かい建物に収束することが多いようだ
同じ文字をより多く繰り返すほど、たとえば
111より11111111にすると、建物がさらに奇妙になる。今見ると シード にかなり敏感なようだbaby raccoonをmaxolhxに置き換えてみると、その単語を無視してイタリア人の花嫁をレンダリングする厳密にはそれでも影響はあるが、私たちが簡単に説明できる形ではない。ほとんどシードで遊んでいるようなもの
本当に気に入った。URL共有ができるといいと思う
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1このプロンプトの結果は素晴らしかった
ヒーローはこう見える: https://fastsdxl.ai/share/x9jxax4pnljd
テロリストはこう見える: https://fastsdxl.ai/share/ejtyvv9ahpfs
自分がなりたい人はこう見える: https://fastsdxl.ai/share/8ekkecm5rqsr
高速なおかげで、シードだけを変えながら内在するバイアスを素早く評価できるので、とても興味深い