ChatGPTに音声会話と画像入力機能を導入

(openai.com)

1 ポイント投稿者 GN⁺ 2023-09-26 | 1件のコメント | WhatsAppで共有

OpenAIはChatGPTに音声会話と画像入力を順次導入し、テキスト入力を超えて、話しかけて会話したり、写真を見せて質問したりできるようにした
音声機能はモバイルアプリでオプトインすると利用でき、5種類の音声から1つを選択し、Whisperがユーザーの発話をテキストに変換する
画像機能は写真、スクリーンショット、テキストと画像が混在する文書を扱い、モバイルアプリでは描画ツールで特定の領域を指定できる
PlusとEnterpriseユーザーに2週間かけて先行配信され、音声はiOSとAndroidで、画像はすべてのプラットフォームで提供される
リアルな音声合成、人物画像の解釈、高リスク分野への依存といったリスクがあるため、OpenAIは限定的な配布と安全対策をあわせて適用している

ChatGPTの新しい入力方法：話して、見せて、質問する

ChatGPTは、ユーザーが音声で会話したり、画像を見せながら質問したりできる機能を導入した
新機能は、キーボード入力だけに依存せず、より直感的にChatGPTを使えるようにすることに重点を置いている
使用例は次のとおり
- 旅行中にランドマークの写真を撮り、興味深い点をリアルタイムの会話で尋ねる
- 冷蔵庫と食品庫の写真を見せて、夕食のメニューとステップごとのレシピを質問する
- 子どもの数学問題の写真を撮り、問題セットに丸を付けたうえでヒントを求める

先行して利用できるユーザーとプラットフォーム

PlusとEnterpriseユーザーは、今後2週間にわたって音声と画像機能を利用できるようになる
音声機能はiOSとAndroidで提供され、設定からオプトインする必要がある
画像機能はすべてのプラットフォームで提供される
その後、開発者を含む他のユーザーグループへアクセス範囲を拡大する予定

音声機能の仕組み

ユーザーはChatGPTと往復の音声会話ができる
- 移動中の会話
- 家族向けの寝る前のお話の依頼
- 食卓での議論の整理といったユースケースが含まれる
モバイルアプリで音声を開始するには、Settings → New Featuresで音声会話をオンにする必要がある
ホーム画面右上のヘッドホンボタンを押した後、5種類の音声から好みの音声を選択する
新しい音声機能は、テキストと数秒分のサンプル音声だけで人間らしいオーディオを生成できるテキスト音声変換モデルを使用している
各音声はOpenAIがプロの声優と協力して制作した
ユーザーが話した内容は、OpenAIのオープンソース音声認識システムWhisperによってテキストに変換される

画像機能の仕組み

ユーザーはChatGPTに1つ以上の画像を見せて会話を続けられる
画像入力は次のような作業に使える
- グリルが点火しない理由の確認
- 冷蔵庫の中を見て食事計画を立てる
- 業務データを含む複雑なグラフの分析
特定の領域に注目させたい場合は、モバイルアプリの描画ツールを使用できる
画像を追加するには、写真ボタンを押して撮影するか画像を選択する
- iOSとAndroidでは、先にプラスボタンを押す必要がある
- 複数の画像を一緒に議論したり、描画ツールでassistantが見るべき部分を示したりできる
画像理解はマルチモーダルGPT‑3.5とGPT‑4が担当する
これらのモデルは、写真、スクリーンショット、テキストと画像が一緒に含まれる文書など、多様な画像に言語推論能力を適用する

段階的な配布と安全対策

OpenAIはツールを段階的に公開し、改善とリスク低減を並行して進める方式を選んだ
音声とビジョンを含む高度なモデルでは実際の悪用可能性が高まるため、この戦略はより重要になる
音声に関するリスクと制限
- 新しい音声技術は、実際の音声が数秒あるだけで現実的な合成音声を作成できる
- 創造的な用途やアクセシビリティ中心のアプリケーションを可能にする一方で、公人へのなりすましや詐欺のようなリスクも伴う
- OpenAIはこの技術を特定のユースケースである音声チャットに使用している
- 音声チャットは、OpenAIが直接協力した声優たちの声で作られている
- Spotifyはこの技術をVoice Translationパイロットに使用している
- この機能は、ポッドキャスターの声でポッドキャストを追加言語に翻訳し、ストーリーテリングの到達範囲を広げる
- 関連リンク: Voice Translation
画像入力に関するリスクと制限
- ビジョンベースのモデルには、人物に関するハルシネーション、高リスク分野で画像解釈に依存する問題など、新たな課題がある
- OpenAIはより広範な配布の前に、レッドチームとさまざまなアルファテスターでモデルをテストした
- テスト領域には、過激主義や科学的熟練度のようなリスク領域が含まれる
- Be My Eyesとの取り組みは、画像の使い方と限界を理解するために活用された
- Be My Eyesは視覚障害者とロービジョンの人のための無料モバイルアプリである
- ユーザーは、テレビに人物が背景として映っている状況のように、人物を含む画像について一般的な会話を行う機能を有用だと感じている
- ChatGPTは常に正確とは限らず、個人のプライバシーも尊重する必要があるため、OpenAIはChatGPTが人物を分析し直接的な記述を行う能力を大幅に制限する技術的措置を適用している
- 実際の利用とフィードバックは、ツールの有用性を維持しながら安全対策を改善するために使われる

モデルの限界と利用上の注意

ユーザーは研究のような専門的なトピックでChatGPTに依存する可能性があるため、モデルの限界を理解し、検証のない高リスクな利用を避けるべきである
モデルは英語テキストの文字起こしには優れているが、一部の他言語、特に非ローマ字の文字体系では性能が低い
OpenAIは英語以外のユーザーに、この目的でのChatGPT利用を推奨していない
画像入力の安全性に関するアプローチとBe My Eyes関連の取り組みについては、system card for image inputで詳しく読める

1件のコメント

GN⁺ 2023-09-26

Hacker News の意見

音声インターフェースにはとてつもない可能性があるが、このデモは他のいまいちな音声アシスタントと同じように、質問と回答の間に数秒の遅延があってかなり期待外れだった
必ずしもこうである必要はない。Llama 2 で作ったローカルデモは約0.5秒以内に応答するので、Siri のような感じではなく、実際に人と会話している感覚に近い
人々が試せるようにパッケージ化する必要はあるが、ユーザーが話し終えたかどうかを判断するのが難しいという問題がある。既製の音声認識システムには会話のターンテイキング用データセットとモデルが欠けていて、OpenAI のような会社なら簡単に作れそうだ
- 完全に同意。優れた音声体験を実現するにはレイテンシが鍵になる。音声注文向けに取り組んでいる短いデモは https://youtu.be/WfvLIEHwiyo にある
  音声テキスト変換、LLM、SKU 検証用 POS、そして再び音声生成まで、全体の往復レイテンシは数百ミリ秒程度。SKU 検証があるので幻覚も起こり得ず、このくらいならかなり自然に感じられる。こうした低遅延を汎用システムとして作れれば、さまざまなアプリケーションが大きく開けそうだ
- その通り。自分が話し終えた瞬間に準備できていてほしいし、途中で割り込める必要がある
  それが可能なら、こちらが少し止まったときに慎重に話し始め、こちらが話し続ければ即座に止まることもできる
  明示的な呼び出し／応答チェーンのようにインタラクションをどう構成するかに気を配りたくないし、考えがまとまるまで話し続けないと変なタイミングで動作してしまうのでは、と気を遣うのも嫌だ
- ユーザーが話し終えたかどうかを判断するのは、聞き手だけでなく話し手にとっても難しいことがある
  礼儀正しい割り込み、あるいはその不在が、私たちが AI と話しているかどうかを分ける識別子になるかもしれない
- GitHub リンクを共有できるのか気になる。レイテンシはどこで削っているのか？ 生の音声をテキストとして処理しているのか？
  自分の経験では、7B のような小さなモデルを使っているのでなければ、ChatGPT の生成時間はローカルの Llama よりずっと速い
- コンピュータがいつ頃イントネーションも考慮し始めるのか気になる。フレーズの終わりを理解するのに本当に役立つはずだ
  純粋なテキストにはない情報が、イントネーションには非常に多く含まれている。言語のその部分を理解できない AI は、どれほど賢くてもどこか間の抜けたままであり続けるしかない
自転車の例はかわいくて印象的だが、人とのインタラクションがより大きな可能性を見えにくくしているように思う
いくつか手を入れれば、これはロボット計画立案のための汎用ソルバーになる。実際に動作するソリューションにするまでには難題がいくつか残っているが、そのうちの一つは解決されたことになる
今後5年以内に、ChatGPT で動く汎用ロボットが単純労働をする姿を見ることになるだろうか？
- 自転車の例はデモ動画としては弱く、むしろ混乱も招いていた
  1. 最初の画像で、ボルト式のサドル固定具だと認識できるほど賢くはなかった。人間なら見分けられる
  2. マニュアルが視聴者には見えないので、モデルがどうやって 4mm ボルトだと分かったのか、それとも最もありそうだから推測しただけなのか分からない
  3. 工具箱がメートル法の六角レンチを使っているとどうやって分かったのかも理解できない
    さらに、これが Bing Chat にすでに入っている同じビジョンモデルなのかも気になる
- Google は数か月前にすでにデモしていた
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- 正直、もっと説得力のある例を使えたと思う。多くのものを認識できるのはすごいが、実際どれほど有用なデモなのかは分からない
  工具箱とマニュアルを持っている人が、自転車のサドルを下げる方法というごく基本的な質問をしている。そもそも誰が自転車のマニュアルを持っているのかと思うし、うちの5歳の子でもできることだ
  AI が人類に与える画期的な影響を示すもっと良い方法がきっとあるはずだ。いっそ靴ひもの結び方のようなものでもいい
- その通りだが、エコロジカル・フットプリントがとてつもない
  ドローンのような小さく軽いロボットにも向いていない
- この部分が一番楽しみだ。最近、小さなブレークスルーがあった: https://pressroom.toyota.com/toyota-research-institute-unvei...
今回の発表で、ChatGPT上でマルチモーダルをやろうとしていたスタートアップはかなり多くが死んだように思う
画像と音声のユースケースまで解決していくスピードを見ると、そう遠くないうちにあらゆるものを支配する1つのアプリになるかもしれない
すでにAlexa/Siri/Google Homeの代替、Google画像検索の代替、写真を撮ってAIで問題を解くエドテック系スタートアップの没落が見えていて、さらに続きそうだ
- 振り返ってみると、そういうスタートアップは慎重であるべきだった。OpenAIにはWhisperがあり、GPT-4が画像モダリティまで考慮して設計されていたことを知っておくべきだった
  OpenAIが意図をあからさまに漏らしていたとまでは言えないが、最初の戦略的な問いは「なぜOpenAIはまだこれをやっていないのか、そしてやると決めたら自分たちは何をするのか？」であるべきだった
- 今年、GoogleやSiriに話しかけるのは本当にイライラした。長時間一人で運転しているときは、ただランダムなテーマを学ぶために会話したい
  夏の間ずっと、ChatGPTと「話しながら」フランス語、音楽理論、歴史、数学のようなものをもっと学びたかった。この機能はまさに合っていそうだ
- 汎用AIツールやアプリを作ることは、ますます悪い選択のように感じる。実行可能なAIビジネスモデルは2つに見える
  1. ドメイン特化AI: 汎用AIモデルが苦手とする、高度に技術的で具体的なトピックでAIモデルを訓練する
  2. 統合: 既存のAIモデルの上に作るなら、機能追加に注力するのではなく、企業やユーザーの既存ワークフローに統合することに注力する。内部プロセスを自動化し、以前は不可能だった方法でシステムを接続すれば大きな価値を生み出せるし、AIモデル企業が自ら行うのも難しい
    この2つはしばしば一緒に進むことになるだろう
- OpenAIの機能リリースを追っていた人なら、ChatGPTがマルチモーダルになることを予想できなかったわけではないはずだ
  アプリにはすでに音声入力がある。今はまだ送信前に音声をテキストに変換するが、非常にうまく動くので、確認や修正はほとんど必要ない。むしろ、なぜまだ音声で返答しないのか不思議だったほどだ
  画像入力機能は3月のGPT-4発表の核心でありハイライトだった: https://openai.com/research/gpt-4
- 死ぬのではなく、Llama 2や他のオープンソースモデル上でマルチモーダルにピボットすればいいのでは？とてつもない変化ではないはずだ
  多くの企業や政府などは、自社のポリシーのためにデータを第三者サービスへ送るOpenAIを使えない。オンプレミスや自社のプライベートクラウドで動かせるものにはお金を払うだろう
これはオンライン教育を不可能にする短剣になるだろう
ChatGPTだけでも、専門的なテキスト問題をコピーして貼り付ければ90%の精度で答えを得られた。唯一の弱点は図表や絵が含まれる問題だった
画像対応が入れば、学生はスクリーンショットや文書スキャンをアップロードして、ChatGPTから有効な答えを受け取ればよい。私の見るところ、多くの学生がこの機能を喜んで悪用するだろう。対応するには採点システムを捨てるか、宿題なしで監督下の学校内だけで課題を行う対面教育を強制するしかない
- 別の選択肢もある。これは学生の仕事を代替するのではなく、教師の仕事を代替できる
  ChatGPTの最大の用途は、いろいろなテーマを独学することにあった。Xを学ぶためにChatGPTへ質問を投げる、ソクラテス式セミナーのように使える
  もちろん学生の宿題生成能力を劇的に変えるだろうが、そもそも学生が学ぶ方法も劇的に変えられる。AI補助チュータリングによって、オンライン学校は今よりはるかに多くのものになり得る
  今後、教育がはるかに分散化され、学生がカリキュラムと方法を自分で選び、自分の作業に対する所有感とコントロール感を持つことで、単なる「忙しいだけの作業」と見なさない未来もあり得そうだ
- その通りだ
  私たちの時代で最も優れた人材たちが、種の進歩のためには人間が機械に置き換えられるのが最善だと決めたのなら、学校の勉強をする意味は何なのかと思う
  今16歳で、ChatGPTとOpenAIの計画を知っていて、良い仕事を得るには一生懸命勉強しろと言われる一方で、テクノクラートたちが見る未来を読んでいるなら、かなり混乱するだろう
  今、勉強したいと思いながら不正はしたくないというのは、本当に難しそうだ
- まもなく教師は、学生を見つめるカメラ付きのLLMになるという点を見落としている
  オンライン授業で、わざわざ人間の映像を見る理由があるだろうか？学生に暗い部屋で何かを作り出せと言う理由があるだろうか？
  学生評価は宿題ではなく、AIアシスタントが学生と交わした会話に基づくようになるだろう。教えることは自動化できるが、学ぶことは自動化できない
  今は教育がまだ追いついていない時間差があるだけで、教育は高価なので、すぐに解決されるだろう。親は子どもたちが以前のように学習練習をするよう本当に促すべきで、ChatGPTはWikipediaのように使わせればよい。移行過程で1つの世代は苦しむことになる
- 学校の文脈でChatGPTの悪用を語るとき、たいていは高校生以上、または高等教育段階の学生のことだ。彼らは善悪を知っており、ツールを使う運動能力とアクセス権もある
  彼らが解決しようとしている具体的なニーズは、宿題やエッセイを片付けてXYZをすることだ。おそらくXYZにはChatGPTは使われないだろう。ならば、時間を使う対象をそれにすればよい
  ある時点で、必要なスキルを逆算して見つけて学び、教育的なガイダンスと構造を必要とするようになる。簡単ではないし、時間と資源なしに起こるものでもないが、適応はそういう形で進む
- 資格試験中に、自分のPCでアプリが実行され、他のものが開いていないか確認され、試験中ずっとカメラがオンで自分の体と手が見えるようにしなければならなかったことがある
  不正をする価値がないほど難しくする方法はある。ただし、この技術は私たちが何を学び、どう学ぶかを大きく変えるだろう。変革的で、そのスピードも落ちない
Webブラウジング、つまり Bing ブラウジング のチャット機能を数か月間無効化したあげく、ひっそり削除したやり方が気に入らない
機能を削除するというまともな告知があればよかったのに。自分が見落としたのかもしれないが、最後の公式情報は、何かを修正している間、一時的に無効化するというものだった。気づいたら、何の説明もなくプラットフォームから完全に消えていた
- 私のアカウントでは現在、プラグインとして Browsing with Bing が有効になっている。数か月消えていたが、1〜2週間前くらいに突然戻ってきた
- 期待外れだったし、当面は再有効化しなさそうに見えるという点には同意する
  ただ、Perplexity AI のほうが Web検索の活用は ChatGPT よりうまいので、その理由で ChatGPT よりも多く使っている
- これを言うためにアカウントを作ったのだが、私は今この機能を使えている。数か月消えていて、先週あたりに戻ってきたようだ
  プラグインでもなく、選択できる別の「モデル」として存在している
- 同意。今では サードパーティ製プラグイン に頼る必要がある
これまでで最も直感的なキラーアプリ級のユーザー体験は テキストチャット のように見える
画像を見せながらやり取りするのも、ある話題について友人と会話している感じで興味深いが、ChatGPT のような非常に賢い人と話している感覚になるのか、物体をある程度認識できるだけのかなり鈍い人と話している感覚になるのかは見てみる必要がある
レンチを認識することは、ChatGPT と歴史について議論したり、実際に動くコードを書かせたりするほど印象的ではない
OpenAI はうまくやっている。人々は興味深いユースケースを思いつくが、多くの人が AI とやり取りする主な方法は、依然として ChatGPT のようだ
ただ、画像生成はまだうまく押さえられていないようで、かっこいいものは引き続き MidJourney や Stable Diffusion 側から出てきている
- OpenAI も「10月初旬」に DALL-E 3 をリリース予定で、デモに選んだ画像は前例のないレベルのプロンプト理解を示している
  出力画像の中に完全な文章テキストを入れることまで可能に見える
これを実現しようと複数の AI サービスを組み合わせる趣味プロジェクトをいくつか作っていたので、何度も往復していた複雑さと遅延が減るというのは楽しみだ
API が予定どおり、つまりハロウィン頃に出るなら、ESP32 カメラを付けた しゃべる骸骨の頭 が人の仮装を見て皮肉を言うマルチモーダルプロジェクトのソフトウェア側が少し楽になりそうだ
- 皮肉なことに、まさにそういう理由で私はその手の試み自体をしなかった
- 作ることになったら、過程や詳細を共有してほしい。本当に格好よさそうだし、自分も似たものを作ってみたい
- 完成したプロジェクトをぜひ見たい。私のメールはプロフィールにある
ソフトウェアテスト自動化の分野に深く関わっている立場として待っているのは、アプリのユーザーインターフェースに対する堅牢な AI ベースの画像認識 だ
AI がテスト自動化コードを書く能力と組み合わされば、単一のスクリーンショットやスクリーンショットのシーケンスだけから、実行可能な Selenium または Appium のテストコードを生成できるようになることを期待している。ほとんどそこまで来ている感じがする
- Google の Spotlight 論文 をおすすめする[1]。この目的のために作られたデータセットが非常に興味深い
  画面-操作-画面のデータセットを社内で持っているというが、公開することはなさそうだ。Android を所有している利点とはこういうことなのだろう
  Hugging Face の最近の論文 IDEFICS[2] もある。Flamingo、つまり少数例ベースのマルチモーダルタスク理解に関する以前の論文のオープンソース実装だと主張している。この分野は近いうちに熱くなりそうだ
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
OpenAI/ChatGPT に対する最大の不満は、ひどい マーケティング だ
こうした機能やプラグインを発表されると期待して試しに行くが、まだ自分には配布されておらず、有料顧客としてはもどかしいのに、できることは毎日確認することだけだ
「プラグインが使えるようになりました」「音声チャットがあなたのアカウントで有効になりました」といったメールも送ってこないので、後で偶然また見るまで新機能を忘れてしまうことが多い
さっきアプリを開いて設定の「New Features」に行ったら、Bing Browsing が無効になっていた。それが一時期動いていたことすら知らなかった。アプリのアップデートが必要なのかと思って App Store に行ったが最新版で、アプリを終了して開き直すと、今度は「New Features」の項目自体が消えていた
新機能があるかどうか確認するために、アプリ設定を定期的に漁るつもりはない。メールやプッシュ通知どころか、アプリ内メッセージすらないのは本当に理解できない
- ニッチな研究会社から、おそらく史上最速で成長したスタートアップになった
  顧客とのコミュニケーションを気にしていないわけではないだろうが、社内は完全な混沌と大混乱なのだと思う
- マーケティングは、まるで3人のスタートアップが SaaS のスターターテンプレートを見つけ、Stripe を適当に接続して、その後は振り返りもしなかったかのようだ
  API を使い始めるために、実際にサブスクリプションを解約して再加入しなければならなかった。おそらく以前の課金モデルの改定版に入っていたのだろう
  マーケティングやデザインのおかげではなく、それにもかかわらず成功している会社は好きだ。それだけ本当に特別な何かがあるということだから
- シンギュラリティに向かっているのに、マーケティングに文句を言っているのか？
- 「できることは毎日確認することだけ」なら、マーケティングはうまくいっているように思う
  そのまま離れて忘れてしまうなら維持率を改善する必要があるが、あなたはそうしないだろうから、その必要はない
- 最大のユーザー不満が、まだ使えない機能にもどかしさを感じていることだとしたら、本当にかなりうまくやっているということだ
これらすべてを月額20ドルでどうパッケージ化できるのか理解できない。規模が大きくなると計算コストは本当にそこまで安いのか？
AppleとGoogleがこれをどう無料で提供するのかも気になる。その会議にハエのように忍び込んでみたい。「やらなければならない」と「マージンを削る」の間で、イノベーターのジレンマのような議論を相当することになるはず
少し突飛な考えかもしれないが、Appleはほとぼりが冷めるのを待つという正しい選択をしているように思う。Zuckerbergが200億ドルを溶かし、AppleがVision Proを出したように、Llamaでも似たことが起こり得ると思う。ただしソフトウェアはFacebookの主戦場で、ハードウェアはそうではないので、確信度は低い
- 計算コストは安くない。Altmanも言っているように、OpenAIが現在多額の資金を燃やしていることはよく知られている
  ただ、Microsoftの100億ドルの投資と、サブスクリプションおよびAPI売上を考えると、当面は問題ない。AI企業にとって重要な局面であり、OpenAIは事実上、他の商用モデルより低い価格で10倍の価値を提供し、市場シェアをできるだけ確保しようとしている
- ニューヨークでUberが以前は同じ区間で20ドルだったのに、今は80ドルになっている理由と同じ
  ベンチャーキャピタルが市場支配を補助しているのだ
- ユーザーのデータが欲しいため、原価付近、あるいは原価以下で課金している可能性もかなりある
  大規模なテスターを雇うなら、どれだけ支払う必要があるかを考えればよい
- おそらくMicrosoftの資金投入で市場を焼け野原にしたあと、価格を引き上げるつもりなのだろう
- 多数のクエリを並列処理すれば、1つずつ処理するよりはるかに安くなる可能性があると思う

ChatGPTに音声会話と画像入力機能を導入

ChatGPTの新しい入力方法：話して、見せて、質問する

先行して利用できるユーザーとプラットフォーム

音声機能の仕組み

画像機能の仕組み

段階的な配布と安全対策

音声に関するリスクと制限

画像入力に関するリスクと制限

モデルの限界と利用上の注意

関連記事

1件のコメント

Hacker News の意見