1 ポイント 投稿者 GN⁺ 2023-09-29 | 1件のコメント | WhatsAppで共有
  • 2023年9月25日、OpenAIは高性能モデルであるGPT-4の2つの新機能の提供開始を発表
  • これらの新機能により、ユーザーは画像について質問したり、音声をクエリ入力として使ったりできるようになり、GPT-4はマルチモーダルモデルへと移行
  • GPT-4V(ision) または GPT-4V は、ユーザーが画像を入力としてアップロードし、その画像について質問できるマルチモーダルモデルで、これは視覚的質問応答(VQA)として知られるタスク
  • GPT-4V は、視覚的質問応答、光学文字認識(OCR)、数式OCR、物体検出、CAPTCHA、クロスワード、数独など、さまざまなタスクでテストされた
  • このモデルは一般的な画像に関する質問で良好な性能を示し、一部の画像では文脈認識も見られた。また、映画名がテキストで与えられていなくても、画像に表示された映画についての質問にうまく回答できた
  • しかし、GPT-4V には限界もある。物体検出用のバウンディングボックスを正確に返せず、現時点ではその用途に適していないことが示された。また、Hallucination によって不正確な情報を返すこともある
  • OpenAI は、少数のユーザーグループにビジョンモデルのアルファ版を提供して研究を行い、さまざまな人々が提供するプロンプトを通じて、GPT-4V がどのように動作するかについてのフィードバックと知見を得た
  • OpenAI は、モデルに関連する複数のリスクを特定し、研究し、軽減しようと努めた。たとえば、GPT-4V は画像内の特定の人物を識別することを避け、ヘイトシンボルに関連するプロンプトには応答しない
  • 限界はあるものの、GPT-4V は機械学習と自然言語処理の分野における注目すべき動き

1件のコメント

 
GN⁺ 2023-09-29
Hacker Newsの意見
  • AIモデルであるGPT-4Vの潜在力に関する記事で、さまざまなデバイスやアプリケーションにおいて優れたユーザーインターフェースになり得ると予測されている。
  • いくつかの極端な失敗例はあるものの、AIがUI要素やレイアウトを理解し、相互作用する能力は印象的だ。
  • GPT-4Vは漫画の画像をコマごとに正確に説明でき、高度なコンピュータビジョン能力を示している。
  • 画像内のユーモアを解釈するAIの能力は、この10年で大きく向上した。
  • GPT-4Vのいくつかの制限として、ゲーム盤の構造を誤って解釈したり、画像内の特定の要素を見落としたりすることが含まれる。
  • AIはNVIDIAのGPU価格戦略に関するジョークを正確には説明できない。
  • GPT-4Vの応答は、特にコインのセットから通貨を解釈する際に、一貫しないことがある。
  • AIは主観的な質問に答えることをしばしばためらい、一部のユーザーの不満を招いている。
  • 高度な機能にもかかわらず、GPT-4Vは三目並べのような単純なゲームでも依然として苦戦する。