1 ポイント 投稿者 GN⁺ 2023-09-26 | 1件のコメント | WhatsAppで共有
  • OpenAI、ChatGPTに新しい音声および画像機能を導入
  • 新機能は、ユーザーが音声で会話したり、ChatGPTに画像を見せたりできる、より直感的なインターフェースを提供
  • ユーザーは、ランドマークの写真を撮ってリアルタイムで会話したり、冷蔵庫や食品庫の写真を撮って夕食のメニューを決めたりするなど、さまざまな形でこれらの機能を活用可能
  • 今後2週間でPlusおよびEnterpriseユーザーに展開予定。音声機能はiOSとAndroidで、画像機能はすべてのプラットフォームで利用可能
  • 新しい音声機能は、テキストと数秒分の音声サンプルだけで人間のような音声を生成できるテキスト読み上げモデルによって駆動
  • 音声機能はプロの声優との協業で開発され、OpenAIのオープンソース音声認識システムであるWhisperを使って話し言葉をテキストに変換
  • 画像理解機能は、さまざまな画像に言語推論能力を適用するGPT-3.5およびGPT-4によって駆動
  • OpenAIはこれらの機能を段階的に展開し、安全で有益な利用を確保するとともに、将来のより強力なシステムに向けてユーザーの準備を進める
  • 新しい音声技術は、公人になりすましたり詐欺を行ったりする悪意ある行為者に潜在的なリスクを与える可能性がある
  • ビジョンベースのモデルも新たな課題を提示しており、たとえば人に関するハルシネーションや、高リスク領域でモデルの画像解釈に依存する問題がある
  • OpenAIは個人のプライバシーを尊重するため、ChatGPTが人を分析したり人について直接的に発言したりする能力を制限する措置を講じている
  • OpenAIはモデルの限界について透明性をもって公開しており、とくに研究分野および非ローマ字表記言語における限界を強調
  • PlusおよびEnterpriseユーザーは今後2週間で音声および画像機能を体験でき、開発者を含むその他のユーザーグループにもまもなく提供予定

1件のコメント

 
GN⁺ 2023-09-26
Hacker Newsの意見
  • ChatGPTの新しい音声機能と画像機能には可能性があるものの、問い合わせと応答の間の遅延時間が懸念されます。
  • この技術はロボットの企画に利用でき、最終的には汎用ロボットが簡単な労働を行うことにつながる可能性があります。
  • ChatGPTの進化は、マルチモーダル機能の構築を目指していた多くのスタートアップを混乱させる可能性があります。
  • 適切な告知なしにウェブブラウジング機能が削除されたことへの失望があります。
  • 新機能は、堅牢なAIベースの画像認識をアプリのユーザーインターフェースに活用し、実行可能なテスト自動化コードを生成するために使える可能性があります。
  • 最も直感的なユーザー体験はテキストチャットのようですが、画像とのインタラクションも興味深いです。
  • 画像対応の追加は、学生が宿題の答えを得るために悪用する可能性があります。
  • OpenAIの新機能とロールアウトに関するコミュニケーション不足への批判があります。
  • 新機能は、趣味のプロジェクトでさまざまなAIサービスを統合する際の複雑さと遅延時間を減らせる可能性があります。
  • ChatGPTが「すごいデモ」モードにとどまり、プログラムを説明するのに音声を使うなどの潜在力を十分に活用していない、という批判があります.