ビジョン言語モデルの視覚的限界

(vlmsareblind.github.io)

2 ポイント投稿者 GN⁺ 2024-07-11 | 1件のコメント | WhatsAppで共有

GPT-4o、Gemini-1.5 Pro、Sonnet-3、Sonnet-3.5 のような ビジョン言語モデル（VLM） は視覚理解ベンチマークで高得点を示す一方で、人間なら容易に解ける低レベル視覚課題では平均 58.57% の正確度 にとどまる
BlindTest は、線の交差数、2つの円の接触・重なり、マークされた文字の特定、重なった図形のカウント、入れ子の四角形、表の行・列、地下鉄ルートといった 7つの単純課題 で精密な空間認識を検証する
全体平均はランダムベースラインの 24% を上回るが、最高性能の Sonnet-3.5 でも 74.94% にとどまり、人間が期待する 100% とは大きな差がある
解像度や線の太さを変えても、モデルは互いに近接または重なった 幾何学的な基本要素 と精密な位置関係を安定して処理できない
表にテキストがあると行・列カウント性能は改善するが、路線数が増える地下鉄マップのように 空間追跡 が必要な入力では性能が大きく低下する

BlindTest の問題設定と全体結果

Paper (ArXiv)、Code、Dataset が公開されている
評価対象は GPT-4o、Gemini-1.5 Pro、Sonnet-3、Sonnet-3.5 の4種類の VLM
BlindTest は、人間には簡単に解ける低レベル視覚課題によって VLM の 精密な空間認識 を検証する
全体平均正確度は 58.57% で、ランダムベースラインの 24% は上回るが、期待される正確度 100% には届かない
モデル別の全体平均では Sonnet-3.5 が 74.94% で最も高い
主な失敗は、精密な位置関係、近接した間隔、重なり、経路追跡、幾何学的な基本要素の認識で繰り返し見られる

線の交差数を数える

2つの区間から成る青色と赤色の折れ線が 0回、1回、2回 交差するかを数える課題
画像は白いキャンバス上の 2D 線グラフ 1,800枚 として生成
- 各線は x 座標が固定され等間隔の3点で定義される
- y 座標をランダムにサンプリングし、ちょうど 0、1、2 個の交差が生じるよう構成する
正答の選択肢は {0, 1, 2} で、ランダムベースラインは 33%
平均正確度は GPT-4o 41.61%、Gemini-1.5 Pro 66.94%、Sonnet-3 43.41%、Sonnet-3.5 75.36%
例示結果では、VLM は交差点数を安定して数えられない

2つの円の接触と重なりの判定

同じ大きさの塗りつぶし円2つが互いに 接しているか、または 重なっているか を Yes/No で問う課題
画像は 672枚 で、円の大きさ・距離・方向・キャンバスサイズを変えて生成される
- 円の直径はキャンバスサイズの 1/4、1/5、1/6、1/7
- 円周同士の距離は直径の -0.15倍から 0.5倍まで
- 方向は 90°、0°、-45°、45°
- キャンバスサイズは 384、769、1155 ピクセル
正答は円周間の距離 d で決まる
- d < 0: 重なっており、接している
- d = 0: 重なってはいないが、接している
- d > 0: 重なっておらず、接してもいない
平均正確度は GPT-4o 72.69%、Gemini-1.5 Pro 92.78%、Sonnet-3 84.52%、Sonnet-3.5 91.66%
間隔が小さい場合に VLM は継続的に失敗し、大きな間隔でも GPT-4o に不安定なケースがある

赤い楕円で示された文字を見つける

VLM は単独であれば赤い円のような基本図形を識別でき、英単語も読めるが、単語上の特定文字に赤い楕円を重ねると、どの文字かを正確に 特定するのが難しくなる
使用した文字列は Acknowledgement、Subdermatoglyphic、tHyUiKaRbNqWeOpXcZvM
- 3つの文字列は文字幅と高さにばらつきがある
- 4モデルすべてが、文字列だけを画像入力した場合は全ての文字を読める
- ランダム文字列は、単語への親しみやすさが正確度に与える影響を測るために含まれる
各文字列・対象文字の組み合わせごとに 512×512 画像を作成し、赤い楕円の線の太さ 3 種、フォントサイズ 2 種、キャンバス内位置 4 種を組み合わせる
- Acknowledgement は 360枚
- Subdermatoglyphic は 408枚
- tHyUiKaRbNqWeOpXcZvM は 480枚
平均正確度は GPT-4o 70.18%、Gemini-1.5 Pro 92.81%、Sonnet-3 73.34%、Sonnet-3.5 89.22%
モデルが誤る場合、示された文字ではなく 隣接する文字 を予測する傾向がある

重なった図形と入れ子の四角形を数える

オリンピックロゴのように重なった円や五角形を数える課題は、離れた円は数えられる VLM でも 重なりのある図形 では苦戦するかを確認するもの
重なった図形の課題では、384、769、1155 ピクセルのキャンバス上に、同じ大きさの図形 5〜9 個を2列に配置する
- 円の直径は C/5 または C/10
- 五角形の辺の長さは C/5 または C/10
- 合計 120枚 の画像が生成される
- 正答は {5, 6, 7, 8, 9} で、ランダムベースラインは 20%
重なった円の正確度は GPT-4o 42.50%、Gemini-1.5 Pro 20.83%、Sonnet-3 31.66%、Sonnet-3.5 44.16%
重なった五角形の正確度は GPT-4o 19.16%、Gemini-1.5 Pro 9.16%、Sonnet-3 11.66%、Sonnet-3.5 75.83%
入れ子の四角形課題では、最も外側の四角形の中に他の四角形を互いに接しないよう配置し、2〜5個 を数えさせる
- 合計 120枚 の画像が生成される
- 正確度は GPT-4o 55.83%、Gemini-1.5 Pro 87.08%、Sonnet-3 65.00%、Sonnet-3.5 92.08%
- 例では Sonnet-3.5 のみが多数の画像で四角形のカウントに成功した

表の行・列カウントと地下鉄ルート追跡

表の行・列カウント課題は、VLM が表を含む入力で高い性能を示す状況でも、単純な グリッド構造 を正しく数えられるかを確認する
グリッドは N×N、N×N'、N'×N の形で、N は 3〜9、N' は N+1
- キャンバスサイズは 500、1250、2000 ピクセル
- 線の太さは 2 種
- 空のグリッドと、各セルにランダムな単語が入ったグリッドの両方を含め、合計 444枚
行と列の両方を正しく答えて正解となり、平均正確度は GPT-4o 39.58%、Gemini-1.5 Pro 39.39%、Sonnet-3 36.17%、Sonnet-3.5 74.26%
- 空のグリッド平均は 34.37%
- テキストありグリッド平均は 60.33%
- セル内にテキストが含まれると全ての VLM の性能が改善し、特に Sonnet-3.5 で改善が大きい
地下鉄マップ課題では、A、B、C、D の4駅の間で、特定の2駅を結ぶ 単一色の経路数 を数えさせる
- 512 または 1024 ピクセルのキャンバスを使用
- 見えない 18×18 グリッド上で深さ優先探索により経路を生成する
- 各駅は正確に N∈{1, 2, 3} 本の出発経路を持つ
- 合計 180件 のマップが生成される
地下鉄経路の平均正確度は GPT-4o 47.89%、Gemini-1.5 Pro 41.60%、Sonnet-3 23.24%、Sonnet-3.5 55.53%
- 各駅あたり1経路のとき平均 59.16%
- 2経路のとき平均 40.69%
- 3経路のとき平均 26.35%
駅から出る経路数が増えるほど、VLM の性能はさらに悪化する傾向がある

1件のコメント

GN⁺ 2024-07-11

Hacker Newsのコメント

面白くはあるが、結論はかなり的外れに見える。要旨で「彼らの視覚は、せいぜい細部がぼやけて見える近視に似ている」と書くのは言い過ぎで、その仮説がきちんと検証されたのかも疑わしい
業務でGPT-4vがかなり難しい精密な視覚タスクをこなした例を共有できれば、この結論への反証になりうる。個人的にはこちらの論文 https://arxiv.org/abs/2404.04125 のほうを高く評価していて、巨大な生成AIモデルは、学習中にその種のデータを大量に見ているという前提ならかなりよくできる、という主張である。わざと奇妙な課題を作れば本当にできないこともあり、AGIという第一印象は弱まるが、実際にはモデルを転ばせるために作った課題ばかり使うわけではない。特定の作業では性能が高い可能性があるのに、この論文はそうした二面性について十分な実証的根拠を示せていない
- コメントには「AI擁護派」がかなりいるが、こうしたモデルが弱視者向けのBe My Eyesのような用途で、人間の視覚の代替であるかのように宣伝されている状況では、このタイトルは公平だと思う: https://www.youtube.com/watch?v=Zq710AKC1gg
  実際には人間レベルではないのに、人間レベルに近いかのように示唆されている。論文は、単純な問題でもモデルが予想外に混乱する大きな隔たりがまだあることを示している。こうした課題をもっと明るみに出すことで、一般用途に適していると人々が信じる前に、安全策と十分な警告が必要だと理解してもらえる
- 「面白い」が正しい表現だ。モデルの視覚処理におけるエッジケースをうまく見つけており、興味深いことに、人がだまされやすいいくつかの錯視とも概念的にそれほど遠くない
  しかしモデルを「盲目だ」と呼んだり、全般的に性能が低いと示唆したりするのは、スマホを取り出してChatGPTアプリに写真を1枚入れてみるだけで簡単に反証できる。BeMyEyesの話を持ち出して「AI擁護派」を非難する反応もあるが、月20ドルのサブスクとスマホがあればすぐ試せる。現実世界の作業では驚くほどよく機能し、完璧ではないにせよ実用上十分に有用で、代替より優れているか、そもそも代替がない場合も多い
- 「細部がぼやけて見える近視」という表現は、現実からそこまで外れてはいない。ほとんどのモデルは画像を低解像度かつ限られた色数で見ているため、その描写にはかなり近い
- 「巨大な生成AIモデルはかなりよくできる」というのは本当にセールストークなのか？ 15年前にもWindowsで文書をスキャンしてテキストを抽出するアプリ付きのスキャナーがあり、その機械のRAMは256MB程度だった
  技術は、孤立したニッチ作業では極めてうまく機能しうる。10年前のOCRシステムも、設定された単一タスクでは非常に信頼できた。AIが約束したのは、開発者が決めた特定のニッチに閉じ込められない新しいパラダイムであり、普通の人なら間違えない単純なことを安定して取りこぼすのなら、全体の価値提案は崩れる
- 「共有はできないが」という前置きが興味深い。モデルが特定の秘密の視覚処理では非常に優秀なので、図形のカウントやコイン投げよりも高い精度のような評価は考慮すべきではない、という話に聞こえる
昨日GPT-4oでかなり驚く体験をした。ガレージドアが最近落ち始めたので見てみたところ、大家がワイヤロープクリップを誤って取り付けていて、ねじりケーブルの張力が抜けた状態になっていた
部品名が分からなかったのでChatGPTに尋ねたところ、予想どおり部品を特定した。試しに写真で目立つ点があるか聞いてみると、ケーブルが逆向きに取り付けられていて、張力がかかっていた側が、緩い端を押さえてしっかり固定されるのではなく、その上に乗っていることを正しく見抜いた。これを診断するには、ケーブルを空間的にたどり、幾何構造からどちらに張力がかかるかを推論する必要があるが、もちろん偶然の当たりだった可能性は否定できない。本当に驚いたのは、ナット2個のうち1個が明らかに欠けていたのに、2つ目の取り付けミスがあると伝えたあとでも、それに気づかなかったことだ。スクリーンショット: https://imgur.com/a/QqCNzOM
- 人間ならケーブルをたどる必要がある。だがLLMは、まずクリップについて聞いているという事実自体が普通は何か不具合があるときに出てくること、そしてこれが非常によくある故障パターンであることに基づいて答えたのかもしれない
  「never saddle a dead horse」という覚え方を持ち出したのも、この問題が一般的である証拠だ。修理後に同じ質問をもう一度してみるとよい
- 人間である自分の目には、その写真からどちらに張力がかかるべきかを推論できるほど十分には見えなかった。訓練を受けた人間ではないが、説明を聞いて期待される見た目は分かっていた
  別の返信にもあるように、LLMがただ運よく当てただけだという可能性には懐疑的だ
- 空間的にたどるには短期記憶と推論能力が必要だ。モデルにはそれがないので、結局は推測したのだろう
これまでVLMは、物体カウントや空間関係、たとえばコーヒーが電子レンジの右側にあるかといったタスクが得意ではなかった。
VLMを助ける方法はあり、その代表例がMicrosoftのSet of Marks https://github.com/microsoft/SoM である。画像をVLMに送る前に、セグメンテーションで領域の輪郭を取り、ラベルを付ける方式である。領域に「言葉で表現可能な」ラベルを与えると、VLMの視覚能力を土台づける助けになり、この論文でも「Task 6: Counting the rows and columns of a grid」で格子の中に単語がある場合に性能がはるかに良い理由になっている。
- 物体カウントが問題だとは知らなかった。皮肉なことに、私の知る限り最初期のニューラルネットワーク実装は、1960年ごろにBiological Computer Labで作られたnuma-rete人工網膜だった。
  これは光電池付きの「ニューロン」を格子状に配置した並列アナログコンピュータで、「大きさ、位置、形状、照明強度に関係なく物体数」を数えられたという。この分野の人には、Heinz Von Foersterの1962年の論文「Perception of Form in Biological and Man Made Systems」が興味深いかもしれない: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- 視覚モデルはCLIPやそれに類するものを使うが、画像内の具体的な対象を理解する概念がない。テキスト埋め込みと相関する埋め込みを見ているだけである。
  ある画像を「青い空と雲を背景に、電線に鳥がとまっている」と説明し、その説明の埋め込みと写真の埋め込みを一致させるようなものだ。鳥がいるかと聞かれれば分かるが、何羽いるかは分からない。つまり、訓練データで物体の上にとまった鳥の数を描写することが一般的であり、その数字が画像説明中の実際の個数と十分な頻度で一致していた場合でない限り、そうはならない。物体を数えたいなら、YOLOのようなものが必要になる。
Vision Transformerはトークナイザで驚くほど大きな圧縮を行っている。Chameleon paper では、トークナイザが「512 × 512画像を、サイズ8192のコードブックから得た1024個の離散トークンにエンコードする」とされている。
これはトークン1個あたり256ピクセルであり、ピクセルを24ビットとすると、256 * 24 = 6144ビットをlog2(8192)である13ビットに圧縮していることになる。An Image is Worth 32 Tokens for Reconstruction and Generation はこれをさらに推し進めている。これらのモデルが似たように動作しているなら、一部の視覚タスクで苦戦するのも不思議ではない。
- そう単純でもない。GPT-4oにこうした画像のコピーを作れと頼むと、たいていかなり忠実に作る。たとえば四角形が5個ある画像も生成できる。
  だからある程度は「見えて」いる。ただ、こうした質問に答えるための推論が不足しているように見える。データセット全体はここで自分で試せる: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4oはOCRのような一部の視覚タスクには非常に優れている。したがって、選択的な盲目性は、言われているように、最も多くの訓練データがあったいくつかの狭いタスクの損失を減らすことに全容量が偏った結果かもしれない。
  これは汎化に関する構造的な失敗というより、容量の問題なのかもしれず、規模をさらに大きくすれば自然に解決する可能性もある。
- 視覚ではない人間の感覚モダリティで似た例を考えていたら、食べたことのない人に果物の味を説明しようとする状況が思い浮かんだ。
現在の最高水準モデルであるGPT-4o、Gemini-1.5 Pro、Sonnet-3、Sonnet-3.5がこの程度なら、かなり気まずいほど性能が悪い。これらのモデルは、盲人を案内したり、子どもに幾何を教えたりするような画像理解が可能だと宣伝され、販売されている。
失敗する課題は、人間にとってはばかばかしいほど簡単だ。たとえば、2本の線が何回交差するかを数える、2つの円が重なっているかを検出する、単語の中で丸で囲まれた文字を選ぶ、オリンピックロゴに似た図で円の数を数える、といったものだ。この記事は1ページ目の最上部にあるべきだ。
- これがなぜ少しでも「気まずい」ことなのか分からない。これらのモデルは人間の脳ではなく、人々がそれを人間の脳と同一視するほうが、モデルよりもよほど気まずい失敗だ。
  モデルが「人間には明白な」さまざまなケースを処理できないのは、まったく驚くことではない。機械学習は最初からこうした性質を持っており、人々がこの種のシステムを扱うときに犯す古典的な誤りでもある。人間は、ある機械学習モデルがタスクXで人間より高い精度を示すと、他のすべてのタスクでもその能力があると仮定してしまう。優れた能力を持つ人間なら他のタスクでも優れている可能性が高いが、それは機械学習モデルには当てはまらない。逆に、モデルがタスクYをうまくできないからといって、タスクXでの能力も幻想で信頼できないとみなすのも誤りである。
- この反応は「うちのしゃべる犬が微積分の問題をいつも間違えるなんて、なんて気まずいんだ！」というふうに読める。
  期待値のランニングマシンは本当にそこまで速くなってしまい、どんな問題カテゴリでも人間未満の性能だと今や気まずいことになったのだろうか?
発見自体は興味深いが、「Vision language models are blind」というタイトルは大げさで、結果を誤解させる。VLMが画像入力を検知・処理する方式が人間と大きく異なり、低解像度では画像がブロックに分割された後に離散トークンへマッピングされるのは事実である。
このマッピングではかなり大きな情報損失が生じるため、実際には細かなディテールにアクセスできない。その意味では結果は完全に筋が通っており驚くことではなかったが、「盲目だ」という表現は強い含意を持ち、この研究はそれを裏づけていない。最初の例である4つの2次元折れ線グラフを見るだけでも、Sonnet 3.5に5回尋ねたうち2回はかなりまともな答えをしていた。3つ目のグラフの交点が実際には2個なのに1個だと答えた点は誤りだったが、全体としてはかなりよくできており、残りの3回も3つ目のグラフを1個だと答えていた
VLMがどう動作するのかを浅くしか知らない立場からすると、ここでは 身体性 を語る人たちにもある程度一理あるのかもしれないと感じる。人間は画像認識を反復的に洗練しながら関心領域に焦点を合わせられるが、VLMは画像全体を同じ忠実度で処理しなければならない。
これを模倣する方法があるのか気になる。最初は視覚トークンを低い忠実度にしておき、VLMがより高い解像度で画像の特定領域に「焦点」を合わせるトークンを出力できるようにする、といった形である。ただ、そのような「インタラクティブ」なデータでモデルを効率よく訓練できるのかはよく分からない
- それこそ アテンション機構 ではないのか？だからこういう作業にTransformerを使うのではないかと思う。
  必ずしも高解像度でなくても、より強い神経的結合性によって特定の領域に焦点を当てる方式である
- 人間は実際、目の発達に時間がかかるため ぼやけた視界 で生まれ、だから人間の学習は低解像度の画像から始まる。これは制約ではなく、視覚処理システムの発達にとって利点になりうるという理論もある。
  貧しい国で白内障を少し遅れて除去してもらった人々は、その時点のハードウェアとしては完全な視力を持てるはずだが、生涯にわたって残る欠損がなお見られるようだ。初期の低解像度学習が人間にどれほど影響するのかは完全には分かっておらず、これは接続主義システム一般の真実というより、人間固有の神経生物学に関係しているのかもしれない。それでも、人工ニューラルネットワークのいくつかの結果が訓練パラダイムに大きく左右されうること、そしてあらゆる欠陥がコア構造の更新だけで解決されるわけではないかもしれないという考えは興味深い
- 人間の注意処理を模倣するには、何を見ていたかと対になった大量の 視線追跡データ が、比較的容易に得られる改善ポイントかもしれない
- これらのモデルは、画像の特定部分に焦点を当てる方法をすでに学習している。そもそもTransformerの明示的な目的がそれである
- 人間が知覚を反復的に「洗練」する能力は、身体化認知 とは関係がない
子どもでも解けそうな単純なテストで失敗するという点は皮肉である。だが、Geminiに視覚ノイズの多い手書きの ロシア語の筆記体 の絵葉書を読ませたところ、テキストを読み取って英語にまで翻訳した。
そのテキストがロシア語だと伝える必要すらなかった。一方では、LLMにできることは信じがたいほどすごく、他方では、こうした単純そうに見える問題でしばしば大きくつまずく。自動運転車でも、ほとんどすべての人間のドライバーなら容易に避けられた状況で事故を起こす、似たような様子を見ている
- 子どもにとっては単純である。私たちの 視覚は進化した のは、それが生存に重要だったため、こうしたパターンを認識するためだからである。ロシア語を読むことはそうではない。
  アルゴリズムの観点から見ると、こうした視覚タスクを明示的にプログラムするのは実際かなり難しい
計算幾何学の講義を何度かしたことがあるが、N本の線分の交差を効率よく計算するのは、最初に思うほど単純ではない。どこかではそれを認識するための計算が必要であり、LLMがこの作業のために特別に訓練されているわけではない以上、苦戦しても驚きではない。
全体として、基礎幾何 は学習の観点からあまり探究されていない領域のように見える
- 写真に犬がいるかを判断したり、段落の感情を理解したりすることも、同じように単純ではない。複雑さ自体が核心ではないように思える。
  これらのモデルが学んだ推論の種類と、具体的な 数学的推論 に必要な推論の種類との間に違いがあるようだ
- 人間にも「交点を計算する」能力があるわけではない。代数として苦労して学んだ一部を除けば、私たちには「見て数える」メカニズムがある。
  私たちは平面空間の線を視覚的に受け取り、どこで交差するかを計算しているのではない。交点がどう見えるかを知っていて、1つ見つけてカウンターを増やし、次のものを探す。5個前後より少なければ一度に処理し、それより多ければ実際に数え、ときには小さなまとまりで、ときには1つずつ数える
すべてのモデル、とくに Claude 3.5 Sonnet はランダムよりはるかによくできているように見えるので、明らかに盲目ではない。Claude Sonnet 3.5 がランダムより良くなかった唯一の課題は、複数の経路をたどる必要がある問題、つまりAからCまでの答えが3であるケースだったが、それでも私でも解くのに数秒かかる。
論文タイトルを先に決めておいて、新しい Claude 3.5 Sonnet を抽象画像で評価したように感じる。「彼らの視覚は、せいぜい細部がぼやけて見える近視に似ている」という一文も意味をなさない。この画像はモデルの 抽象能力 を評価しているのであって、視力を評価しているのではない
- では法的には視覚障害者ということにしよう

ビジョン言語モデルの視覚的限界

BlindTest の問題設定と全体結果

線の交差数を数える

2つの円の接触と重なりの判定

赤い楕円で示された文字を見つける

重なった図形と入れ子の四角形を数える

表の行・列カウントと地下鉄ルート追跡

関連記事

1件のコメント

Hacker Newsのコメント