ビジョン言語モデルは視覚的課題をうまく遂行できない
要約
- ビジョン言語モデル(VLMs)は画像・テキスト処理アプリケーションで高い性能を示すが、人間にとっては非常に簡単な7つの視覚的課題で失敗する。
- この研究は、VLMsの視覚認識能力が限定的であることを示している。
Task 1: 線の交点の計算
- 画像: 2本の線分が交差する150個の2D線グラフを生成
- 質問: 「青い線と赤い線は何回交差するか?」
- 結果: モデルは交点を正確に計算できなかった
Task 2: 2つの円
- 画像: さまざまな大きさ、距離、方向を持つ2つの円を含む672枚の画像を生成
- 質問: 「2つの円は互いに接しているか?」または「2つの円は重なっているか?」
- 結果: モデルは距離が小さい場合に一貫して失敗した
Task 3: 円で囲まれた文字
- 画像: 単語の各文字を赤い円で囲んだ画像を生成
- 質問: 「どの文字が円で囲まれているか?」
- 結果: モデルは隣接する文字を予測する傾向がある
Task 4: 重なった図形の数え上げ
- 画像: オリンピックロゴのように重なった円と五角形を含む画像を生成
- 質問: 「画像には図形がいくつあるか?」
- 結果: モデルは図形の数を正確に数えられなかった
Task 5: 入れ子になった四角形の数え上げ
- 画像: 入れ子状の四角形を含む画像を生成
- 質問: 「画像には合計でいくつの四角形があるか?」
- 結果: モデルは入れ子になった四角形の数を正確に数えられなかった
Task 6: グリッドの行と列の計算
- 画像: テキストを含むグリッドと空のグリッドを含む画像を生成
- 質問: 「グリッドには何行何列あるか?」
- 結果: テキストを含むグリッドでは性能が向上したが、空のグリッドでは失敗した
Task 7: 単色の経路追跡
- 画像: 地下鉄路線図を含む画像を生成
- 質問: 「AからCまでの単色の経路はいくつあるか?」
- 結果: モデルは経路の数を正確に数えられなかった
GN⁺のまとめ
- この研究は、ビジョン言語モデル(VLMs)の視覚認識能力が限定的であることを示している。
- VLMsは人間にとって簡単な視覚的課題で一貫して失敗する。
- これは、VLMsの視覚認識能力を改善するための追加研究が必要であることを示唆している。
- 類似の機能を持つ他のプロジェクトとして、OpenAIのGPT-4とGoogleのGemini-1.5 Proがある。
1件のコメント
Hacker Newsの意見
結論は誤っていると思う
Captchaに関する体験の共有
VLMの物体数カウントと空間関係認識の問題
現在のSOTAモデルの性能への批判
VLMの画像処理方式に関する意見
「Vision language models are blind」というタイトルは誇張されていると思う
モデルの入力データ解釈方式に対する理解
GPT-4の水準に関する意見
AIが学校日程の画像を読むのに苦労する