- ChatGPTに新しい音声機能と画像機能が登場。
- 音声を通じて自然に会話し、画像を添付して質問できるように。
- 音声はWhisperによってテキストに変換され、回答は新しいTTSモデルを基盤として、プロの声優の声に変換される。
- 新しいTTSモデルは、数秒分の音声サンプルだけでその人の声をそのまま再現できる。
- このモデルはSpotifyのポッドキャスト翻訳機能にも使われており、ポッドキャスター本人の声をそのまま使って多言語翻訳を行う。
- 画像は一度に複数添付でき、画像内のテキストだけでなく物体も詳細に認識する。
- ツールや機器の使い方を尋ねたり、冷蔵庫の中の食材からレシピについて会話したりできる。
- また、グラフを分析したり数学の問題を解いたりすることも可能。
- モバイルアプリでは描画ツールを使って、画像の特定部分に注目させることができる。
- 安全性とプライバシー保護のため、人について分析したり語ったりする機能は大幅に制限されている。
- 今後2週間以内に、まずPlusおよびEnterpriseユーザーへ提供予定。
- 音声はiOSとAndroidでのみ動作し、画像添付機能はすべてのプラットフォームで利用可能。
4件のコメント
スカイネット is comming...
映画『her』の中のOSが実現できそうですね
GPT-4 の初回リリース時にも少し出ていましたが、画像を認識するのを超えて理解するのが本当にすごいですね。
例を見ると、自転車のサドルを調整する方法を尋ねる場面が出てきますが、
単なる画像認識ではなく、説明書を見て適切な工具を探してくれるように見えるので……
Plus の購読が必要なのかなと思っていましたが、これだとまた話が少し違ってきますね……すごく気になります。
HNスレッドのAI要約