- 2023年9月25日、OpenAIは高性能モデルであるGPT-4の2つの新機能の提供開始を発表
- これらの新機能により、ユーザーは画像について質問したり、音声をクエリ入力として使ったりできるようになり、GPT-4はマルチモーダルモデルへと移行
- GPT-4V(ision) または GPT-4V は、ユーザーが画像を入力としてアップロードし、その画像について質問できるマルチモーダルモデルで、これは視覚的質問応答(VQA)として知られるタスク
- GPT-4V は、視覚的質問応答、光学文字認識(OCR)、数式OCR、物体検出、CAPTCHA、クロスワード、数独など、さまざまなタスクでテストされた
- このモデルは一般的な画像に関する質問で良好な性能を示し、一部の画像では文脈認識も見られた。また、映画名がテキストで与えられていなくても、画像に表示された映画についての質問にうまく回答できた
- しかし、GPT-4V には限界もある。物体検出用のバウンディングボックスを正確に返せず、現時点ではその用途に適していないことが示された。また、Hallucination によって不正確な情報を返すこともある
- OpenAI は、少数のユーザーグループにビジョンモデルのアルファ版を提供して研究を行い、さまざまな人々が提供するプロンプトを通じて、GPT-4V がどのように動作するかについてのフィードバックと知見を得た
- OpenAI は、モデルに関連する複数のリスクを特定し、研究し、軽減しようと努めた。たとえば、GPT-4V は画像内の特定の人物を識別することを避け、ヘイトシンボルに関連するプロンプトには応答しない
- 限界はあるものの、GPT-4V は機械学習と自然言語処理の分野における注目すべき動き
1件のコメント
Hacker Newsの意見