- OpenAI、ChatGPTに新しい音声および画像機能を導入
- 新機能は、ユーザーが音声で会話したり、ChatGPTに画像を見せたりできる、より直感的なインターフェースを提供
- ユーザーは、ランドマークの写真を撮ってリアルタイムで会話したり、冷蔵庫や食品庫の写真を撮って夕食のメニューを決めたりするなど、さまざまな形でこれらの機能を活用可能
- 今後2週間でPlusおよびEnterpriseユーザーに展開予定。音声機能はiOSとAndroidで、画像機能はすべてのプラットフォームで利用可能
- 新しい音声機能は、テキストと数秒分の音声サンプルだけで人間のような音声を生成できるテキスト読み上げモデルによって駆動
- 音声機能はプロの声優との協業で開発され、OpenAIのオープンソース音声認識システムであるWhisperを使って話し言葉をテキストに変換
- 画像理解機能は、さまざまな画像に言語推論能力を適用するGPT-3.5およびGPT-4によって駆動
- OpenAIはこれらの機能を段階的に展開し、安全で有益な利用を確保するとともに、将来のより強力なシステムに向けてユーザーの準備を進める
- 新しい音声技術は、公人になりすましたり詐欺を行ったりする悪意ある行為者に潜在的なリスクを与える可能性がある
- ビジョンベースのモデルも新たな課題を提示しており、たとえば人に関するハルシネーションや、高リスク領域でモデルの画像解釈に依存する問題がある
- OpenAIは個人のプライバシーを尊重するため、ChatGPTが人を分析したり人について直接的に発言したりする能力を制限する措置を講じている
- OpenAIはモデルの限界について透明性をもって公開しており、とくに研究分野および非ローマ字表記言語における限界を強調
- PlusおよびEnterpriseユーザーは今後2週間で音声および画像機能を体験でき、開発者を含むその他のユーザーグループにもまもなく提供予定
1件のコメント
Hacker Newsの意見