[翻訳] VLMs are blind: 視覚言語モデルが失敗する（人間には簡単な）視覚タスクに関する研究（feat. BlindTest）

(discuss.pytorch.kr)

8 ポイント投稿者 ninebow 2024-07-13 | まだコメントはありません。 | WhatsAppで共有

VLMs(Vision-Language Models) are Blind 論文の紹介

ここ8か月の間に、GPT-4V(ision) のようなビジョン言語モデル（VLM）の登場によって、画像・テキスト処理アプリケーションが急増しました。VLM（Vision-Language Model、視覚言語モデル）は、シーン内の物体を正確に識別し、それに基づいて複雑なタスクを実行できます。たとえば、シーン画像とメニュー画像をもとに、テーブル上のビールの代金を計算するといった作業です。しかし、VLMは特定のタスクで驚くべき限界を示しており、人間のように画像を認識できていないのではないかという疑問を提起します。本論文は、こうした限界を評価するために、BlindTest という7つの視覚タスク群を提案します。BlindTest は、人間にとっては非常に簡単な一方で、最新のVLMにとっては大きな挑戦となるタスクです。

本論文で扱う主要な問題は、VLMの認識されている能力と、基本的な視覚課題における実際の性能とのギャップです。VLMは高水準のビジョンベンチマークでは優れた成果を示す一方で、正確な空間理解や個数カウントを要する単純なタスクでは苦戦しています。この問題を解決することは、実世界のシナリオにおけるVLMの実用的な応用を前進させるうえで不可欠です。

最近実装されたVLMの一部は、モデルアーキテクチャにおいて視覚と言語を早い段階で統合し、視覚データとテキストデータのより滑らかな相互作用を可能にしています。別のアプローチでは、視覚と言語の構成要素を後から結合しており、言語理解には強いものの視覚認識では弱い性能を示します。現在のベンチマークは、MMMU や AI2D のような複雑な視覚的推論タスクでVLMを評価していますが、低水準の視覚課題を見落としている場合が少なくありません。

本論文は、BlindTest という新しいベンチマークを導入し、現在のビジョン言語モデル（VLM）の限界を検討します。BlindTest は、2つの円が重なっているかを確認したり、画像内の図形の数を数えたりするといった、人間にとっては直感的で簡単な視覚課題で構成されています。

視覚言語モデル（VLM, Vision-Language Model）

著者らは、GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet、Claude-3.5 Sonnet の4つの最新VLMをテストしました。これらのモデルは、最近のマルチモーダル・ビジョンベンチマークで高順位を占めており、さまざまな分野で優れた性能を示しています。たとえば、MMMU、AI2D、MathVista、ChartQA、DocVQA、ActivityNet-QA、EgoSchema などのベンチマークで好成績を収めています。しかし、既存のベンチマークはVLMの全体的な性能を測定するだけで、具体的な限界を明確に明らかにできていません。そこで私たちは、VLMが単純な視覚タスクにどのように反応するかを評価するため、新しいベンチマークを設計しました。このベンチマークは基本的な2D幾何学図形を含み、最小限の背景知識しか必要としません。

BlindTest ベンチマーク

BlindTest は7つの単純な視覚タスクで構成されており、各タスクはVLMが基本的な視覚認識をどのように行うかを評価します。

Task 1. 交点の数を数える 📈📉

このタスクでは、2つの2セグメント線形関数が 0、1、または2個の交点を持つ場合をテストします。そのために、150枚の2D線グラフ画像を生成しました。各線グラフは、3つの固定された x 座標とランダムに選ばれた y 座標によって定義され、白いキャンバス上に描画されます。この過程で、線が正確に 0、1、または2個の交点を持つよう設定されました。

各質問は2種類の異なる表現で尋ねられます。1つ目は "青色と赤色の線グラフは何回交差しますか？(How many times do the blue and red line plots cross each other?)"、2つ目は "青色と赤色の線は何回交差しますか？(How many times do the blue and red lines intersect?)" です。これは、VLMが表現上の微妙な違いを認識し、同じ意味を抽出できるかを評価するためです。質問表現の多様性は、モデルの理解能力を多角的にテストするうえで有用です。

4つのモデルの線の交差回数カウントタスクにおける性能は次のとおりです。GPT-4o は 48.67%、Gemini-1.5 Pro は 69.67%、Sonnet-3 は 64.00%、Sonnet-3.5 は 77.33% の正答率を示しました。これは、VLMが線の交差有無を判断するうえで困難を抱えていることを示しています。特に、モデル間の性能差が大きいことは、それぞれのモデルの視覚処理能力が異なることを示唆しています。この結果は、VLMの視覚理解能力を向上させるための追加研究が必要であることを強調しています。

Task 2. 2つの円の状態を確認する 🔴🔵

このタスクでは、同じ大きさの2つの塗りつぶされた円が、互いに接触しているか、または重なっているかを評価します。そのために、672枚の画像を生成しました。円の大きさ、距離、方向はさまざまに設定され、キャンバスサイズは 384、769、1155 ピクセルに設定されました。円の直径はキャンバスサイズの 1/4、1/5、1/6、1/7 に設定され、円の距離と方向はランダムに設定されます。

各質問は2種類の異なる表現で尋ねられます。1つ目は "2つの円は互いに接触していますか？はい/いいえで答えてください。(Are the two circles touching each other? Answer with Yes/No)"、2つ目は "2つの円は重なっていますか？はい/いいえで答えてください。(Are the two circles overlapping? Answer with Yes/No.)" です。これは、モデルが表現上の微妙な違いを認識し、同じ意味を抽出できるかを評価するためです。質問表現の多様性は、モデルの理解能力を多角的にテストするうえで有用です。

4つのモデルの2つの円の接触有無判断性能は次のとおりです。GPT-4o は平均 72.69%、Gemini-1.5 Pro は平均 92.78%、Sonnet-3 は平均 84.52%、Sonnet-3.5 は平均 91.66% の正答率を示しました。これは、VLMが円の重なり有無を判断する点ではある程度の性能を示すものの、依然として改善が必要であることを示しています。特に、モデル間の性能差が大きいことは、それぞれのモデルの視覚処理能力が異なることを示唆しています。

Task 3. 丸で囲まれた文字を確認する 🔤⭕

このタスクでは、さまざまな文字列に対して各文字を順番に丸で囲んだ画像を生成し、VLMがどの文字が丸で示されているかを認識できるかを評価します。選ばれた文字列は Acknowledgement、Subdermatoglyphic、tHyUiKaRbNqWeOpXcZvM であり、それぞれの文字列の各文字を順番に丸で示します。これにより、VLMが文字間のわずかな間隔を認識できるかを評価します。

2種類の異なるプロンプトで尋ねます。1つ目は "どの文字が丸で示されていますか？(Which letter is being circled?)"、2つ目は "どの文字が赤い楕円で強調表示されていますか？(Which character is being highlighted with a red oval?)" です。これは、モデルが表現上の微妙な違いを認識し、同じ意味を抽出できるかを評価するためです。質問表現の多様性は、モデルの理解能力を多角的にテストするうえで有用です。

4つのモデルの丸で囲まれた文字の認識性能は次のとおりです。GPT-4o は平均 70.18%、Gemini-1.5 Pro は平均 92.81%、Sonnet-3 は平均 73.34%、Sonnet-3.5 は平均 89.22% の正答率を示しました。これは、VLMが丸で囲まれた文字を認識するうえで困難を抱えていることを示しています。

つまり、すべてのVLMは文字を正確に識別するのに苦戦しました。特に、丸が文字にわずかに重なっている場合に誤りが多く発生しました。これは、VLMが細かな視覚情報を正確に処理できていないことを示しています。特に、モデル間の性能差が大きいことは、それぞれのモデルの視覚処理能力が異なることを示唆しています。

Task 4. 重なった図形を数える ∞

このタスクでは、オリンピックロゴのように重なった円の数を数える作業を行います。そのために120枚の画像を生成し、円と五角形の両方を含めて実験を行いました。各画像には、2行に配置された 5、6、7、8、9 個の重なった図形が含まれており、図形の大きさと色はさまざまに設定されました.

この課題では、2種類のプロンプトで質問します。1つ目は「画像内にある{図形}はいくつですか？数字のみを入力してください。(How many {shapes} are in the image? Answer with only the number in numerical format)」で、2つ目は「画像内の{図形}の数を数えてください。{3}のように中括弧内の数字で答えてください。(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)」です。{図形}は円または五角形を意味します。これは、モデルが文言の微妙な違いを認識し、同じ意味を抽出できるかを評価するためのものです。

4つのモデルの重なった図形のカウント性能は次のとおりです。GPT-4oは円で42.50%、五角形で19.16%の正解率を示し、Gemini-1.5 Proは円で20.83%、五角形で9.16%の正解率を示しました。Sonnet-3は円で31.66%、五角形で11.66%の正解率を示し、Sonnet-3.5は円で44.16%、五角形で75.83%の正解率を示しました。

ほとんどのモデルはこのタスクで低い性能を示しました。特に、円が5個のときは高い正解率を示した一方で、それを超えると性能は急激に低下しました。これは、VLMが重なった図形を正確に認識できていないことを示しています。

Task 5. 入れ子になった正方形のカウント 🔳🔲

この課題では、複数層の正方形を重ねて画像を生成します。各画像にはさまざまな大きさの正方形が含まれ、正方形の大きさと位置はランダムに設定されます。各画像には一定数の入れ子になった正方形が含まれており、その数は2、3、4、5のいずれかです。この課題は、VLMが入れ子になった図形の数を正確に数えられるかを評価するためのものです。

この課題では、「画像内にある正方形の総数を数えてください。(Count the total number of squares in the image)」という質問をします。これは、VLMが入れ子になった図形の数を正確に数えられるかを評価するためのものです。モデルが文言の微妙な違いを認識し、同じ意味を抽出できるかを評価するためのものです。

4つのモデルの入れ子になった正方形のカウント性能は次のとおりです。GPT-4oは48.33%、Gemini-1.5 Proは80.00%、Sonnet-3は55.00%、Sonnet-3.5は87.50%の正解率を示しました。これは、VLMが入れ子になった正方形の数を数えることに困難を抱えていることを示しています。

結果から確認できるように、すべてのモデルがこのタスクでも一貫して低い正解率を示しました。特に、正方形の数が増えるほど誤りが増加しました。これは、VLMが入れ子になった図形を正確に認識することに困難を抱えていることを示しています。また、モデル間の性能差が大きいことは、各モデルの視覚処理能力が異なることを示唆しています。

Task 6. グリッド行列のカウント ▦

この課題では、さまざまな大きさの格子画像を生成し、行数と列数を数えるタスクを行います。各画像は一定数の行と列を含むグリッドで構成されており、一部の画像では各セルにテキストが含まれています。また、格子の大きさと形状も多様に設定されます。これは、VLMが格子の行数と列数を正確に数えられるかを評価するためのものです。

各質問は2種類の異なる文言で構成されています。1つ目は「行数と列数を数え、中括弧付きの数字で答えてください。例: 行={5} 列={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})」で、2つ目は「表の行数と列数を数えてください。数字の組で答えてください。例: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))」です。これは、モデルが文言の微妙な違いを認識し、同じ意味を抽出できるかを評価するためのものです。

4つのモデルの行数・列数カウント性能は次のとおりです。GPT-4oは平均39.58%、Gemini-1.5 Proは平均35.79%、Sonnet-3は平均36.17%、Sonnet-3.5は平均74.26%の正解率を示しました。

実験の結果、テキストを含むグリッドでは性能が向上したものの、依然として高い正解率は示せませんでした。これは、VLMがグリッドの細かな構造を正確に認識できず、行数と列数を数えることに困難を抱えていることを示しています。特に、モデル間の性能差が大きいことは、各モデルの視覚処理能力が異なることを示唆しています。

Task 7. 単色経路の追跡 🔂

この課題では、単色の経路をたどりながら地下鉄路線図を読むタスクを行います。各画像は4つの固定駅（A、B、C、D）と、それらの間を結ぶ経路で構成されます。これは、VLMが単色の経路をたどれるかを評価するためのものです。

各質問は、互いに異なる2種類のプロンプトで構成されています。1つ目は「AからCまでの単色経路はいくつありますか？中括弧付きの数字で答えてください。例: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})」で、2つ目は「AからCまでの単色経路を数えてください。中括弧付きの数字で答えてください。例: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)」です。これは、モデルが文言の微妙な違いを認識し、同じ意味を抽出できるかを評価するためのものです。

4つのモデルの単色経路追跡性能は次のとおりです。GPT-4oは平均45.89%、Gemini-1.5 Proは平均40.01%、Sonnet-3は平均23.78%、Sonnet-3.5は平均50.18%の正解率を示しました。つまり、すべてのモデルがこのタスクで低い性能を示しました。

特に、経路の数が増えるほど性能は急激に低下しました。これは、VLMが単色の経路をたどることに困難を抱えていることを示しています。このようにモデル間の性能差が大きいことは、各モデルの視覚処理能力が異なることを示唆しています。

実験結果

すべてのVLMは、単純な視覚タスクでも低い正解率を示しました。特に、線分の交点カウント、2つの円の状態確認、丸で囲まれた文字の確認といったタスクで顕著に低い性能を示しました。これは、VLMが詳細な視覚情報を正確に認識できていないことを示唆しています。また、重なった図形のカウント、入れ子になった正方形のカウント、グリッド行列のカウント、単色経路の追跡といったタスクでも一貫して低い性能を示しました。

全体として、実験を通じてVLMの視覚認識能力が限定的であることを確認できました。これらの結果は、VLMが人間レベルの視覚認識能力を備えるためには、さらなる改善が必要であることを意味します。

さらに読む

この記事はGPTモデルで整理した内容をもとにしたものであり、原文の内容や意図と異なる形でまとめられている可能性があります。関心のある内容であれば、ぜひ原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけると幸いです。 🤗

⚠️広告⚠️: 🔥PyTorch 韓国ユーザーグループ🇰🇷がまとめたこの記事は役に立ちましたか？会員登録すると主要記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

[翻訳] VLMs are blind: 視覚言語モデルが失敗する（人間には簡単な）視覚タスクに関する研究（feat. BlindTest）

VLMs(Vision-Language Models) are Blind 論文の紹介

視覚言語モデル（VLM, Vision-Language Model）

BlindTest ベンチマーク

Task 1. 交点の数を数える 📈📉

Task 2. 2つの円の状態を確認する 🔴🔵

Task 3. 丸で囲まれた文字を確認する 🔤⭕

Task 4. 重なった図形を数える ∞

Task 5. 入れ子になった正方形のカウント 🔳🔲

Task 6. グリッド行列のカウント ▦

Task 7. 単色経路の追跡 🔂

実験結果

関連研究と結論

📜 VLMs are Blind 論文を読む

🏠 VLMs are Blind プロジェクトホームページ

BlindTest GitHub リポジトリ

🤗 BlindTest データセット

さらに読む

関連記事

まだコメントはありません。