22 ポイント 投稿者 kuroneko 2023-09-26 | 4件のコメント | WhatsAppで共有
  • ChatGPTに新しい音声機能と画像機能が登場。
  • 音声を通じて自然に会話し、画像を添付して質問できるように。
  • 音声はWhisperによってテキストに変換され、回答は新しいTTSモデルを基盤として、プロの声優の声に変換される。
    • 新しいTTSモデルは、数秒分の音声サンプルだけでその人の声をそのまま再現できる。
    • このモデルはSpotifyのポッドキャスト翻訳機能にも使われており、ポッドキャスター本人の声をそのまま使って多言語翻訳を行う。
  • 画像は一度に複数添付でき、画像内のテキストだけでなく物体も詳細に認識する。
    • ツールや機器の使い方を尋ねたり、冷蔵庫の中の食材からレシピについて会話したりできる。
    • また、グラフを分析したり数学の問題を解いたりすることも可能。
    • モバイルアプリでは描画ツールを使って、画像の特定部分に注目させることができる。
    • 安全性とプライバシー保護のため、人について分析したり語ったりする機能は大幅に制限されている。
  • 今後2週間以内に、まずPlusおよびEnterpriseユーザーへ提供予定。
  • 音声はiOSとAndroidでのみ動作し、画像添付機能はすべてのプラットフォームで利用可能。

4件のコメント

 
alstjr7375 2023-09-26

スカイネット is comming...

 
ciber27 2023-09-26

映画『her』の中のOSが実現できそうですね

 
kuroneko 2023-09-26

GPT-4 の初回リリース時にも少し出ていましたが、画像を認識するのを超えて理解するのが本当にすごいですね。

例を見ると、自転車のサドルを調整する方法を尋ねる場面が出てきますが、
単なる画像認識ではなく、説明書を見て適切な工具を探してくれるように見えるので……

Plus の購読が必要なのかなと思っていましたが、これだとまた話が少し違ってきますね……すごく気になります。

 
kuroneko 2023-09-26

HNスレッドのAI要約

  • modeless: レイテンシは現在の音声アシスタントにおける最大の問題であり、音声対話のターンテイキングモデルを構築すれば、より自然な会話が可能になると考えています。
  • TheEzEzz: Llamaやその他のツールを使って、自然な会話に近い低レイテンシの音声注文システムを構築しました。この分野の継続的な研究によって、新しいアプリケーションを開発できると考えています。
  • cyrux004: ローカルで実行されるモデルが、特に複雑なシステムにおいて、クラウドベースのモデルと同等の性能を達成できるのか疑問を呈しています。
  • TheEzEzz: それはアプリケーション次第だという点に同意し、ローカルモデルが初期処理を担い、必要なときだけ大規模なクラウドモデルにリクエストするハイブリッドアプローチが一般化すると予想しています。
  • simian1983: システムに無意味または悪意のあるリクエストが行われた場合どうなるのかと質問しています。
  • TheEzEzz: バックグラウンドノイズがリクエストを妨げないよう、無関係な文章は無視するようシステムが学習されていると答えています。
  • furyofantares: 人と会話するときのように、音声アシスタントの応答を中断できる機能の重要性を強調しています。
  • dotancohen: 中断は、AIシステムがまだ習得していない人間らしさの兆候かもしれないと提案しています。
  • jonplackett: 真に人間レベルの音声アシスタントは、テキストにはない重要な情報を伝えるイントネーションを理解できるべきだと考えています。