2 ポイント 投稿者 GN⁺ 2024-07-11 | 1件のコメント | WhatsAppで共有

ビジョン言語モデルは視覚的課題をうまく遂行できない

要約

  • ビジョン言語モデル(VLMs)は画像・テキスト処理アプリケーションで高い性能を示すが、人間にとっては非常に簡単な7つの視覚的課題で失敗する。
  • この研究は、VLMsの視覚認識能力が限定的であることを示している。

Task 1: 線の交点の計算

  • 画像: 2本の線分が交差する150個の2D線グラフを生成
  • 質問: 「青い線と赤い線は何回交差するか?」
  • 結果: モデルは交点を正確に計算できなかった

Task 2: 2つの円

  • 画像: さまざまな大きさ、距離、方向を持つ2つの円を含む672枚の画像を生成
  • 質問: 「2つの円は互いに接しているか?」または「2つの円は重なっているか?」
  • 結果: モデルは距離が小さい場合に一貫して失敗した

Task 3: 円で囲まれた文字

  • 画像: 単語の各文字を赤い円で囲んだ画像を生成
  • 質問: 「どの文字が円で囲まれているか?」
  • 結果: モデルは隣接する文字を予測する傾向がある

Task 4: 重なった図形の数え上げ

  • 画像: オリンピックロゴのように重なった円と五角形を含む画像を生成
  • 質問: 「画像には図形がいくつあるか?」
  • 結果: モデルは図形の数を正確に数えられなかった

Task 5: 入れ子になった四角形の数え上げ

  • 画像: 入れ子状の四角形を含む画像を生成
  • 質問: 「画像には合計でいくつの四角形があるか?」
  • 結果: モデルは入れ子になった四角形の数を正確に数えられなかった

Task 6: グリッドの行と列の計算

  • 画像: テキストを含むグリッドと空のグリッドを含む画像を生成
  • 質問: 「グリッドには何行何列あるか?」
  • 結果: テキストを含むグリッドでは性能が向上したが、空のグリッドでは失敗した

Task 7: 単色の経路追跡

  • 画像: 地下鉄路線図を含む画像を生成
  • 質問: 「AからCまでの単色の経路はいくつあるか?」
  • 結果: モデルは経路の数を正確に数えられなかった

GN⁺のまとめ

  • この研究は、ビジョン言語モデル(VLMs)の視覚認識能力が限定的であることを示している。
  • VLMsは人間にとって簡単な視覚的課題で一貫して失敗する。
  • これは、VLMsの視覚認識能力を改善するための追加研究が必要であることを示唆している。
  • 類似の機能を持つ他のプロジェクトとして、OpenAIのGPT-4とGoogleのGemini-1.5 Proがある。

1件のコメント

 
GN⁺ 2024-07-11
Hacker Newsの意見
  • 結論は誤っていると思う

    • 「近視の人の視野」という比喩は誇張表現である
    • GPT-4vが細かな視覚タスクをうまくこなす例がある
    • 大規模なGenAIモデルは大量のデータを学習したときに性能が高い
    • 著者らが示した証拠は不十分である
  • Captchaに関する体験の共有

    • GPT-4oがガレージドアの問題を解決するのに役立った
    • 写真の中で誤った設置は特定したが、欠けているナットは見落とした
  • VLMの物体数カウントと空間関係認識の問題

    • MicrosoftのSet of Marksが役立つ可能性がある
    • 「言語化できる」ラベルの提供が性能向上に寄与する
  • 現在のSOTAモデルの性能への批判

    • 人間には簡単な作業で失敗する
    • 例: 線の交差回数を数える、円の重なりを検出する、など
  • VLMの画像処理方式に関する意見

    • 人間は関心領域に集中できるが、VLMは画像全体を同じ解像度で処理する
    • インタラクションデータでモデルを訓練する方法への疑問
  • 「Vision language models are blind」というタイトルは誇張されていると思う

    • VLMの画像入力処理の仕方は異なる
    • 低解像度では細部を見落とす可能性がある
    • 例としてSonnet 3.5の回答はおおむね正確だったが、一部に誤りがあった
  • モデルの入力データ解釈方式に対する理解

    • LLMとマルチモーダルモデルには具体的な推論能力が不足している
    • 例: ChatGPTはテキスト要約は得意だが、単語数を数えるのは苦手である
    • AGI開発の核心的な問題は高水準と低水準の知能を結び付けることにある
  • GPT-4の水準に関する意見

    • GPT-4は高校レベルだというMira Muratiの発言を引用
  • AIが学校日程の画像を読むのに苦労する

    • 特定の日付を尋ねると一部は正しく答えるが、一部は見落としたり新しい日付を作り出したりする
    • ノイズを除去すると性能はやや向上するが、それでも信頼できない