Show HN: DALL·E 3とGPT-4 Visionのフィードバックループ

(dalle.party)

1 ポイント投稿者 GN⁺ 2023-11-28 | 1件のコメント | WhatsAppで共有

DALL·E画像変換パーティー

DALL·Eは画像変換のためのパーティーを提供している。
ユーザーに人気のある画像テーマには、「ノーム」、「年老いたシベリア人」、「奇妙な猫たち」などがある。
OpenAI APIキーを使って、開始プロンプトをもとに画像生成を進めることができる。

高度な設定

反復回数のような高度な設定を通じて、ユーザーは画像生成プロセスを調整できる。
GPT-4 Visionプロンプトを使って基本プロンプトを変更したり、より面白く、より奇妙に、より独創的にしたり、すべてを猫に変えるといったカスタマイズが可能である。

GN⁺の意見

この記事で最も重要なのは、DALL·Eを使ってさまざまな画像を生成し、ユーザーが望む方法で変形できる点である。
創造的でパーソナライズされた画像生成機能は、人々に興味深い体験を提供し、技術の進歩と人工知能の可能性を示す事例といえる。

1件のコメント

GN⁺ 2023-11-28

Hacker Newsのコメント

プロンプトをいじりながら、一連の画像を通じて何を生み出せるかを見るのはかなり楽しい。最近のTwitterの投稿に触発されて、各プロンプトごとに「強度」を上げていく設定を試した。子どもの提案から始まったテーマが、ありふれたヤギの大暴れから宇宙の終末的なコズミックホラーへと突き進んでいく様子に畏怖を覚えた。リンク: dalle.party
個人的に楽しめたカスタムプロンプト: 画像のあらゆる細部を熟慮し、スタイル、色、照明まで含めて構想する。最後の段階でそれを1つの段落に圧縮し、最も際立つ特徴と非常に正確な言葉遣いで考えを要約する。リンク: dalle.party
対照的なコンセプトで遊ぶのも楽しい。シンプルな猫から始まり、くつろいで横たわるキュウリへと進化し、最後には反転した世界へ切り替わる。リンク: dalle.party
これは「Telestrations」というパーティーゲームを思い出させる。参加者が絵を描き、それを見て文章を書き、また次の人がそれを絵にする、という形で交互に進むが、次の絵が何になるのかを予想しながら結果を見るのが愉快だ。画像と次のプロンプトを表示する別の閲覧モードがあるとよさそう。モバイルモードに切り替えるかウィンドウサイズを調整すれば、プロンプトを読んでから画像を見ることができる。
技術的な退化よりは漸進的な技術的進化を予想していたが、実際にはすぐにシュールな領域へ逸脱していった。開始プロンプト: "未来的な蒸気機関車とダ・ヴィンチの飛行機械のハイブリッド"。結果: dalle.party
画像→テキストのモデルは、写真に実際に何が含まれているのかをまったく分かっていないように見える。学習データ内のパターンをマッチングしているだけのようだ。テキストから画像をレンダリングする方向では、まるでモデルが望まれているものを「理解」しているかのように見えるが、逆方向では「理解」とはほど遠い。
まだ試してはいないが、これは商用販売されているScrawlというゲームに似ていると思う。参加者が紙を回し、隣の人の文章を絵にしたり、その逆をしたりして、また次へ回していく方式で進む。リンク: boardgamegeek.com
「人工知能が自分自身の絵を描く」という開始プロンプトで試したところ、毎回ロボットがキャンバスに絵を描いている姿が出てきた。最初の4枚はロボットの絵、次の3枚は銀河、最後の2枚は風景画だった。リンク: dalle.party
特定のプロンプトやテーマが比較的安定して保たれるのを見るのは興味深い。たとえば「ノームの例」は安定しているが、「猫がネズミに講義する」の例はすぐに奇妙でシュールな領域へ逸れていく。
出来上がったものはややノイズが多くて残念だが、このコンセプト自体には魅力がある。リンク: dalle.party

Show HN: DALL·E 3とGPT-4 Visionのフィードバックループ

DALL·E画像変換パーティー

高度な設定

GN⁺の意見

関連記事

1件のコメント

Hacker Newsのコメント