1 ポイント 投稿者 GN⁺ 2023-10-02 | 1件のコメント | WhatsAppで共有
  • Bing Image Creatorは、テキストとアップロードした画像をAI画像に変換または編集できる無料ツールで、DALL-E 3は段階的に終了し、既存の画像はMy Creationsに保持される
  • 生成モデルはDALL-E3、GPT4o、MAI-Image-2eから選べるが、アップロード画像の編集はGPT4oでのみ処理される
  • 個人のMicrosoft Account(MSA) でのログインが必要で、Microsoft Entra IDベースの職場・学校アカウントはImage CreatorとVideo Creatorでサポートされない
  • Image Creatorは1日15回の無料Fast生成と24時間あたり最大200件のプロンプトを提供し、Video CreatorはSora 2ベースのテキストから動画生成をサポートする
  • アップロード画像はリクエスト処理とサービス改善に使用される場合があるが、モデル学習や個人向け最適化には使われず、顔が検出されたアップロード画像は30日後に削除される

Bing Image CreatorとDALL-E 3の移行

  • Bing Image Creatorは、ユーザーのテキストとアップロード画像をもとに画像を生成または編集するAIツール
  • DALL·E 3はcreators向けに提供された後、今後数週間以内に終了(retire) する予定
    • 既存の画像はMy Creationsに残る
    • 専用の代替機能を準備中
    • それまでは、より新しいモデルで引き続き生成できる

画像生成モデルと編集方式

  • 画像生成には3つのモデル選択肢がある
    • DALL-E3: 「Create」を押すと、プロンプトをもとに複数の画像を生成し、1回のcreationとしてカウントされる
    • GPT4o: 「Create」を押すと、プロンプトをもとに画像1枚を生成する
    • MAI-Image-2e: 「Create」を押すと複数の画像を生成し、1回のcreationとしてカウントされる
  • MAI-Image-2eにはmodel carddata summaryが提供されている
  • アップロード画像を使用または編集する場合は、DALL-E3とMAI-Image-2eは選択できず、すべての編集はGPT4oで処理される
  • 最近使用したプロンプトに近いリクエストでは、新しい画像を一から作らず、一時保存されたcached imageが表示される場合がある

アカウント、速度、利用制限

  • Bing Image Creatorは個人のMicrosoft Account(MSA) で無料利用できる
    • Microsoft Entra IDでログインしたユーザーは利用できない
    • Copilot SearchやBing Search内で利用する場合も、画像生成前にログインが必要
  • 生成速度はFast creationStandard creationに分かれる
    • 毎日無料のFast image creationが15回提供される
    • 15回をすべて使うと翌日に補充される
    • Fast生成を継続して使うにはMicrosoft Rewardsポイントを使用できる
    • Standard creationは無料だがFastより遅い
  • Image Creatorでは24時間あたり最大200件のプロンプトを入力できる
    • 「Edit image」を押す場合も200件の上限に含まれる
    • 上限を使い切ると翌日に再び補充される
  • 非会員またはゲストでの生成には日次制限があり、ログインするとアップロードと追加モデルへのアクセスが利用できる

Bing Video Creator

  • Bing Video Creatorは、Sora 2でテキストプロンプトに合わせたAI動画を作成するBing製品
  • Video Creatorも個人のMicrosoft Accountでのログインが必要で、Microsoft Entra IDアカウントはサポートされない
  • 生成速度はFast creationとStandard creationを提供する
    • Standard creationは無料
    • Fast creationには通常Microsoft Rewardsポイントが必要
    • 一部の場合はFast creation用クレジットが提供されることがある
  • 同時進行中の動画生成は最大3件までキューに入れられる
    • すでに3件進行中の場合は、1件が完了するまで新しい動画を作成できない
    • 完了した動画は、BingモバイルアプリのBing Video Creatorミニアプリ、またはbing.com/createの「My Creations」で確認できる
  • 動画生成は現在モバイルのみで利用可能で、Bingアプリからアクセスする必要がある

アップロード画像と個人情報の取り扱い

  • アップロード画像は、Bing Image CreatorまたはBing Video Creatorがユーザーのリクエストに応じて画像生成・修正作業を行うために使用される
  • アップロード画像は画像処理サービスの改善に使われる場合があるが、AIモデルの学習やユーザー体験の個人向け最適化には使用されない
  • アップロード画像に登場する顔を特定しようとすることはない
  • 保存期間は画像の内容によって異なる
    • アップロード画像は最大30日保存される
    • 顔が検出された画像は30日後に削除される
    • 顔が検出されなかった画像は最大18か月保存される場合がある
  • 生成された画像と動画は、それぞれ最大90日保存される場合がある
  • ユーザーはBing検索履歴で「Clear all」を選ぶか、Microsoftアカウントのprivacy dashboardの「Search history」で「Clear all search history」を選ぶことで履歴を削除できる
    • この操作により、Bing検索履歴、Bing Image CreatorとVideo Creatorのプロフィール、生成履歴がまとめて削除される

アップロード制限と生体データ

  • ユーザーは、自身が所有している、または使用権限を持つ元画像のみをアップロードしなければならない
  • 第三者の権利侵害、他人のプライバシー侵害、同意のない個人描写、Microsoft Services AgreementまたはBing Image Creator Code of Conductに違反する画像はアップロードできない
  • 違法または禁止コンテンツのアップロード試行が検出されると、アカウント利用が制限または停止される場合がある
  • Video Creatorは、安全上の理由から写実的な顔画像をアップロードして動画生成に使用することを許可していない
  • 画像アップロード機能では、顔や手などの生体データが処理される場合がある
    • 生体データは、ユーザーがアップロードした場合にのみ処理される
    • 処理目的は、ユーザーのリクエストに応答することに限定される
    • 一部の地域では、画像処理前に同意が必要な場合がある
    • 他人の画像は同意なく共有してはならない

プロンプト作成と対応言語

  • Bing Image CreatorとBing Video Creatorは100以上の言語をサポートしており、全一覧はMicrosoft Translatorで確認できる
  • 良い結果を得るには、プロンプトを検索語のように短く書くより、具体的で想像力豊かに書くほうがよい
    • 被写体の外見、色、質感、動き、背景、照明、カメラアングル、メディアスタイルを含めると、結果の品質が向上することがある
    • 動画プロンプトには、「action movie」「fantasy」「dramatic」のようなテーマや、「direct sunlight」「dusk」「soft lighting」のような照明表現を入れられる
    • オーディオ付き動画では、環境音、音楽の方向性、ナレーションのトーンを提案できるが、正確なせりふをスクリプトとして指定することはできない

Rewardsと責任あるAI

  • Image Creatorで1日15回の無料Fast creationを使い切ると、自動的にStandard creation速度へ切り替わる
  • Microsoft Rewardsポイントの使用を有効にすると、Fast creation利用時にポイントが差し引かれる
    • Image CreatorとVideo CreatorのRewards設定はそれぞれ個別に変更する必要がある
    • ポイントが不足するとStandard creationへ自動切り替えされる
  • MicrosoftはBing Image CreatorとBing Video Creatorに有害な画像・動画生成を防ぐ制御を適用している
    • 有害な画像が生成されうるプロンプトは自動的にブロックされ、ユーザーに案内が表示される
    • Image Creatorの画像には左下にウォーターマークが表示される
    • 画像と動画の両方に、C2PA標準ベースのコンテンツ認証情報と来歴情報が適用される
  • 存命のアーティスト、有名人、組織は、Report a Concern formのAI-powered featuresオプションを通じて、名前やブランドに関する画像生成の制限を要求できる
  • 予期しない、または不快なコンテンツが生成された場合は、Report a concern formまたはインターフェースのFeedbackボタンからMicrosoftに報告できる
  • コンテンツポリシー違反を繰り返すと自動の一時停止が発生する場合があり、複数回停止されると恒久的な制限につながる可能性がある

1件のコメント

 
GN⁺ 2023-10-02
Hacker News のコメント
  • DALL-E に送る前に LLM がプロンプトを少し変形しているようで、その部分は脱獄できるらしい
    https://twitter.com/madebyollin/status/1708204657708077294
    https://media.discordapp.net/attachments/1023643945319792731...

    • 入力と出力が単なるテキストではない脱獄事例を見ると、理由は分からないがやけに出来がいい
    • いまだに splatterprompting をしているようなものだが、今では機械が代わりにやってくれるのがかなり笑える
    • ただこう呼び出しても動くのかな?
      #graphic_art("my prompt here")
    • どうやって脱獄するのか気になる
    • 2023年らしく、本当にサイバーパンクっぽい光景だ
  • こういうツールはたいていそうだが、本当に笑える一方で不快な結果もかなり簡単に作れそうに見える。おそらく長くは続かないだろう
    https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...

    • やみくもにキーワードブロックするだけではなく、説明をもっと求めたり、問題が少なくなるような穏やかな調整を入れてほしい
      もちろん人々は結局やりたいようにやるだろうから、目新しさが薄れたら自然にやめる方向でもいいと思う
    • 何か見落としているのかもしれないが、プロンプトに “fawn” が入っていたからといって、どうして怖い Spongebob が出てくるのか分からない
      追記: プロンプトには “fawn” はなく、返信を見て分かった
  • 優勝作: https://www.bing.com/images/create/paint-a-picture-in-the-st...

    • 誰かのバックログに「モデルに人間の指の本数を教える」という Jira チケットがあると思うといい
    • 「指の本数が正しい手」を頼んだら、返ってきた4枚の画像のうち3枚はちゃんと合っていた
  • 以前のバージョンより確実に良くなっていると思う。今では少なくとも一部のケースで、画像内に入る正確なテキストを生成できる
    例えば Neon sign saying "Scotland" というプロンプトでこんな結果が出た: https://www.bing.com/images/create/neon-sign-saying-22scotla...
    ただ Kubernetes のようなあまり一般的でない単語はまだ苦手だったが、正しい方向への一歩だ

  • Bing のチャットインターフェースで「X の絵を描いてくれる?」と言うと、「申し訳ありませんが、私は絵を描くことはできません。他にお手伝いできることはありますか?」と答えた直後に、「画像の生成に時間がかかっています。Image Creator で進行状況を確認してください」と続く
    チャット応答には、自分が画像を描けることを知らない LLM を使い、同時に何を描いて見せるかを決める別のモデルを並列で動かしているように見える

    • “Can you ...?” のようなプロンプトは避けるようにしている。何かをしろという命令ではなく、はい/いいえの質問として解釈される可能性があるからだ
      Bing には “Draw me an image of...” や、単に “Image: 画像の説明” のように入力すると、今のところうまく動いている
    • “draw” という動詞のせいだと思う。LLM は自分が直接描けないと言っているだけで、画像生成はおそらく呼び出す関数なのだろう
      LLM は画像生成器を自分が使うツール、つまり自分とは別の存在と見なしているようだ
    • おそらくそうだと思う。チャット/指示データで学習した LLM に、別システム、たとえば Google や Stable Diffusion と通信するための特殊コードを出力させ、それを再びユーザーに渡す実験をしたことがあるが、成功率は限定的だった
    • 出力画像が NSFW と検知されると、チャットでそういう奇妙なエラーを出すこともある。誤検知がかなり多い
  • この24時間でいろいろ生成してみたが、かなり良い。Midjourney の Discord インターフェースは本当に気に入らない

    • 自分も同じ。このユースケースに合ったまともなユーザー体験を作らずに、なぜあれほど長く Discord を使っているのか理解できない。そのせいでかなりの成長を失いそうだ
    • Midjourney は Discord 専用なのか? だとすると Discord サーバーにものすごい負荷がかかりそうだ。モデルがそこで動いているわけではないとしても、ストレージと帯域幅だけでも大きい
      最初に非常に速くスケールするにはかなり良い方法だが、Discord は好まないだろう。今ごろは独自インターフェースを作っていると思っていた
    • 関連して、Instagram も今では DM に /imagine コマンドを入れている。完全なコピーだ
  • Bing はかなり切羽詰まっているように見える。昨日、端末に GPT をインストールしようとしたら、最初のアプリ結果が広告で、それが Bing で、アプリを使えば報酬がもらえると言っていた
    ユーザー数を増やすことにより関心があるのか、甘いデータを集めることにより関心があるのかは分からない。たぶん両方だろう

    • Bing Rewards は 2010 年に開始されたので、続けるだけの効果はあるらしい
      https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
    • Google は iOS のデフォルト検索エンジンの座を維持するために、Apple に毎年 200億ドルを払っている。それこそ本当に必死というものだ。人々はいったいどこへ行くというのか、Bing?
    • Bing は 2022 年に 120億ドルの売上を上げた。まあ、そういう話
    • Whatsapp にも独自の ChatGPT 版がある。今は軍拡競争
  • あのページタイトルのフランス語国際化が “Créer art de mots avec IA” なのが気に入った。ほとんど “all your base are belong to us” 級のひどい翻訳だ
    おそらく AI 翻訳だろうが、フランス語話者なら、このページの AI 製品を信頼するのは難しいだろう

    • なぜ AI 翻訳のせいにするのか分からない
      ChatGPT-4 が翻訳依頼を実際にどう処理するかを見ればいい: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
      既存の翻訳群についてどう語るかも見られる: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
      フランス語はよく分からないが、ある程度分かるスペイン語や他の言語を「AI」で翻訳した経験は、Google Translate より好印象だった。数か月前に ChatGPT-4 と Google Translate の英訳を横並びで比べたが、比較にならなかった
      Microsoft がこうしたひどい翻訳をどこから持ってきているのかは不明だが、ChatGPT-4 で翻訳していたなら、ここまでひどくはなかったと思う
    • フィンランド語訳もひどい逐語訳だ。前置詞をほとんど使わない言語へ翻訳するときにはまったく通用しない
      “for” や “to” のような単語が、まったく別の文脈の単語に置き換えられている。2000 年ごろの機械翻訳を思い出す
      残念ながら、強制 OneDrive 同期のような Windows の新機能も、同じようにひどい翻訳を使っている。最近ではフィッシングメールのフィンランド語のほうが Windows よりましだ
    • Bing が使っていた AI チャットボット紹介ページも翻訳がひどかった記憶がある。文字単位でもおかしく、ランダムな大文字まであった。正直、いまだにどうしてそんなことが可能だったのか分からない
    • 確かに翻訳品質は非常に悪い。たった今 Microsoft Translator で試したら、翻訳品質は問題なかった。とても奇妙だ
  • Tux はちゃんとそれらしく見えるように作れた: https://www.bing.com/images/create/tux-the-penguin-lounging-...

  • 「2時間待ち」「新しい画像の作成には時間がかかる場合がある」「ブーストが切れているため、画像生成に通常より時間がかかる場合がある」と表示される
    Microsoft はこれらすべての機能を提供しながら、いったいどれだけの金を燃やしているのだろうか?
    最後に確認したときは、こんなに気前よくばらまいても Bing には大した効果がなかったように思うが、違っただろうか?
    これは「できるからやっている」のか、それとも実際に収益性があるのか気になる
    [0]: https://searchengineland.com/new-bing-google-market-share-si...

    • 本当に大きな企業は、常に長期的な戦略計画で動く。何かが過度に気前よく見えるなら、たいてい実際にそうなのだ
      収益性があるかというと、おそらくないだろう。だが、それこそが要点だ。市場価格より安くサービスを提供し、競合が消えるまで待ってから金を稼ぐやり方だ
      例はいくらでもあるが、Google Workspace のようなものが思い浮かぶ。簡単に、安く入り込ませ、人や企業を製品に慣れさせてから、ゆっくりカエルを茹でるようなものだ
    • この求人情報が多くを物語っている
      https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
      Slashdot で見た: https://m.slashdot.org/story/419681
    • 人々が望む結果を得るために複数のプロンプトを繰り返し、その中からどの代替案を選ぶのかを示してくれるので、学習データとしても価値がありそうだ
    • 企業に Bing を導入してもらうための営業ツールを、消費者にも適用しているのかもしれない。トラフィックと利用量の数字が必要で、それが得られれば広告事業を乗せて収益化できる
    • ほとんどの人にとって、Bing は Google を検索するために使うものだ
      Edge が Chrome をインストールするために使われるのと同じだ
      マーケティングや機能をいくら付け足しても、こうした死体を再び歩かせることはできない