1件のコメント

 
GN⁺ 2024-02-23
Hacker Newsのコメント
  • 昨日これを Groq と組み合わせて使い、Neal Agrawalの無限おもしろゲームをChrome拡張で拡張してみた。絵文字だけでなく実際の画像を生成できるようにした
    ほぼリアルタイムに近い画像生成とLLM生成は未来のように感じる。プロンプト作成にはGroqのMixtralを使い、リアルタイム生成にはFal APIを使った
    https://x.com/altryne/status/1760561501096575401?s=20

    • これを横スクロールゲームにして、進行に合わせて背景が扱う単語のレンダリングへ段階的かつ自然に遷移するとよさそう
      デモ序盤の青い風景が終盤の画像にある乾いた山岳地形へゆっくり変わり、前景には鳥のキャラクターが登場する様子を想像している
    • カードベースのゲームに変えられるかも気になる
    • 本当に良さそう。Chrome拡張を共有してもらえる可能性があるのか気になる
  • 記録として残しておくと、SDXL Lightning はHugging Faceで比較的寛容なライセンスのもと公開されているオープンソース: https://huggingface.co/ByteDance/SDXL-Lightning
    ほかのUIもいくつかある。例: https://replicate.com/lucataco/sdxl-lightning-4step

    • その通り。内部的にはByteDanceがStable Diffusion XL上で学習し、オープンソースとして公開した SDXL Lightning を使っている
      これに独自の推論エンジンとリアルタイムインフラを加えて、ほかのUIより滑らかな体験を提供している。速度面ではほとんど比較にならないと思っていて、こちらでは4ステップが約 370ms なのに対し、リンク先のreplicateの例は約2〜3秒程度
    • Gradioでもデモを作ったが、fal.aiより2倍遅い。単一のA10Gで stable-fastコンパイル を使っている
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      GPU/CUDA/Dockerがあればローカルでも実行してみられる
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • ローカル推論ではメモリ使用量と速度がどの程度なのか気になる
  • 速度は素晴らしい
    品質については、今日みんながStable Diffusion 3やほかのモデルのテストに使っていたプロンプトを借りてみた: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    私が得た結果はこれ: https://imgur.com/a/XrAuqCB
    Stable Diffusion 3と比べると: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • 空間的なプロンプト遵守は、SDXLや以前のStable Diffusion系で全般的に弱い部分。Stable Diffusionが例のようにこの部分をうまく磨き込んでくれることを期待している
      最新の公開重みStabilityモデルであるStable Cascadeでも同じ例を試してみたが、やはりあまり良くはない: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • 私が得た結果はかなり正確: https://imgur.com/a/vH0zq5b
      シード: 3919562
    • シードを変えながら回すと結果が大きく変わる
  • デモは本当に印象的だが、もっと滑らかならさらに驚異的だったと思う。今はたとえば単語を削除したり空白を追加したりすると、短時間に推論が4回走って、ぎこちなさが残る
    意図的に段階ごとの結果を見せているのかもしれない。ちなみにこれはfal.aiのデモで、Stable Cascadeが公開された日の朝に彼らがデモを上げたときに初めて知った
    OpenAIの外で推論を回すならfal.aiを強くおすすめする。AI業界にほぼ3年いて、昨年からはほとんど24時間張り付いていたが、Falは論文上の数値ではなく実利用でここまで速くするために細部まで気を配っている初めてのサービスのように見える
    たとえば WebSocket接続 や、APIキーでリクエストに署名するためにエッジ関数を経由しなくて済むようにする短命JWTのような部分だ

    • これほど速いなら、目標画像へ直接ジャンプするよりも、潜在空間内で滑らかな経路をたどって中間画像を生成するほうがよいかもしれない
  • このデモは本当に気に入った。使いやすく、速く、直感的。この程度の品質をこんなに簡単に得られるのは驚き

    • このデモと Groq は本当に驚きだった。少し前までは、アカウントを作ると無料生成が20回ほどもらえるサイトで、壊れた画像を1枚受け取るために長く待っていた記憶がある
      今ではサインアップや CAPTCHA なしでウェブサイトに入り、電光石火の速さでテキストと画像を生成できるのはすごい。特に Groq と fal.ai がデモを完全に開放しておけるほどだという点まで含めると、2024年初めにこうした性能向上は予想できなかった
      高速生成は画像品質の欠点もかなり相殺すると思う。失敗しても、良い結果はたいていシードを1つ変えるか、プロンプトを少し修正するだけの距離にあることが多い
  • どうしてこんなに速いのか気になる。それと blob:[https://blbahblah](<https://blbahblah>;) という画像が何なのか分からない
    ついでに言うと、プロンプトを少し変えると アライグマ に尻尾が2本生えやすい

  • 本当に驚き。レイテンシの低減は、こうしたツールとのやり取りの仕方に大きな影響を与える
    ここでの速度面の利点は、単により多くの画像を生成できるというレベルを超えて、いろいろ試している間も同じ思考の流れを途切れさせずに続けられることにある

  • 本当に印象的だが、Stable Diffusion で 一貫したキャラクター を生成する方法を知っている人がいるのか気になる
    最初のプロンプトが猫と話している少女で、2つ目のプロンプトがその猫と遊んでいる少女なら、2枚の絵で少女と猫が同じに見えてほしい
    可能なら関連リンクやチュートリアルがあるととても助かる

    • 記憶では Dashtoon Studio は Stable Diffusion で一貫したキャラクターが出る漫画を作れるようにしてくれる: https://dashtoon.com/create
    • Dashtoon Studio で可能。画像を1枚アップロードするだけでも 一貫したキャラクター LoRA を学習してくれる。AI漫画制作用のソフトウェアで、YouTube でこの動画を見つけた: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA が最も汎用性が高いほうだと思う。望むポーズやカメラアングルでキャラクターを一貫して得られるから。IP-Adapter は入力画像の特徴を複製しすぎるし、ポーズのように複製したくない要素を選ぶのが難しい。そのため、ポートレート入力のキャラクターに別の行動をさせるのが難しくなり得る
      Reactor は顔を差し替える生成画像が必要。写実的な画像ではうまく機能するが、スタイル化された画像ではスタイルが維持されず、髪型もコピーされない
      これまで見つけた中では Dashtoon が最も安定していて簡単だった。新しいキャラクター画像を20枚集めるのも難しいし、LoRA の学習セットではクローズアップの数や表情の数といった画像の属性がかなり重要だから
    • https://scenario.gg を確認してみる価値がある。キャラクターのカスタム画像で自分で LoRA を学習させられ、良い一貫性を得るには複数の角度からの画像がだいたい20枚ほど必要
      より単純だが、それでもかなり良い方法として IP-Adapter もあり、このサービスでもサポートしている。猫を一貫して保つのは、カスタム LoRA なしでは難しそう。参考資料: https://help.scenario.com/training-a-character-lora
    • たいていは名前を使うだけでも十分。良い SD モデルでは Maria Smith はほぼ常に Maria Smith のように見える
    • Mickey はかなり一貫して見える: https://fastsdxl.ai/share/4us7hrp3jm20
  • 単一の文字を入れたときの挙動が興味深い。自分の場合は、小さくてかなり細かい建物に収束することが多いようだ
    同じ文字をより多く繰り返すほど、たとえば 111 より 11111111 にすると、建物がさらに奇妙になる。今見ると シード にかなり敏感なようだ

    • 未知の単語や概念は、出力に実質的な影響を与えない。プロンプトで baby raccoonmaxolhx に置き換えてみると、その単語を無視してイタリア人の花嫁をレンダリングする
      厳密にはそれでも影響はあるが、私たちが簡単に説明できる形ではない。ほとんどシードで遊んでいるようなもの
  • 本当に気に入った。URL共有ができるといいと思う
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    このプロンプトの結果は素晴らしかった