ローカルLLMを活用した画像のalt-text生成の比較

(dri.es)

3 ポイント投稿者 GN⁺ 2025-03-13 | 1件のコメント | WhatsAppで共有

ブログに保存された10,000枚の写真のうち、約9,000枚にalt-textがない状態だった
そのため12個のLLM（大規模言語モデル）をテストし、このうち10個はローカルで実行、2個はクラウドベースのモデル（GPT-4、Claude 3.5 Sonnet）だった
alt-textの作成は視覚障害者向けのアクセシビリティを高める重要な作業だが、手作業で書くには負担が大きい
AIモデルがalt-textを生成する精度をテストし、ローカルモデルが実用的な代替になり得るかを確認することが目的

テストしたAIモデル

クラウドモデル（GPT-4o、Claude 3.5 Sonnet）
- 最も正確なalt-テキストを生成
- 細部の描写に優れ、画像の雰囲気までうまく捉える
- 評価等級: A
ローカルモデルの中で高性能だったモデル
- Llama 3.2 Vision 11B
  - 正確な物体認識と文脈理解に優れる
  - 評価等級: B
- Llama 3.2 Vision 90B
  - 11Bモデルよりわずかに高い精度を示したが、実行にはより多くのRAMが必要
  - 評価等級: B
- MiniCPM-V
  - 比較的軽量なモデルでありながら強力な性能を示す
  - 評価等級: B
低い性能を示したモデル
- VIT-GPT2、GIT、BLIPなどの初期モデルは物体認識が不正確で、反復的な文句を生成する傾向がある
- 評価等級: D〜F

ビジョンエンコーディング（Vision Encoding）
- 画像を小さなパッチに分割した後、それを数値データ（埋め込み）に変換
- 注目すべき部分（例: 主要な物体）をフィルタリングし、あまり重要でない要素（例: 単純な背景）を除外
言語エンコーディング（Language Encoding）
- ビジョンエンコーダが提供した情報をもとに自然言語テキストを生成
- 画像説明を書いたり質問に答えたりする形でテキストを生成

渋谷スクランブル交差点（東京）
- GPT-4o、Claude: "ネオンサインと人混みであふれる渋谷スクランブル交差点" → A評価
- LLaVA 13B: "渋谷スクランブル交差点を人々が渡っている場面" → A評価
- Llama 3.2 Vision 11B: "東京のにぎやかな夜景、広告看板と人混み" → C評価
- VIT-GPT2: "高層ビルと信号機のある都市の夜景" → F評価 （不正確）
イザベラ・スチュワート・ガードナー美術館（ボストン）
- Claude: "ビクトリア様式の部屋、シャンデリア、金箔の額縁" → B評価
- Llama 3.2 Vision 11B: "金箔の額縁と装飾的な背景" → A評価
- BLIP-2 OPT: "壁に掛かった絵と額縁のある部屋" → C評価
- VIT-GPT2: "鏡の前にろうそくと花瓶が置かれた居間" → F評価 （不正確）
ウェイクボード（米バーモント州）
- GPT-4o: "ボートの上の2人がウェイクボーダーを見守っている場面" → A評価
- Llama 3.2 Vision 90B: "ボートの上でウェイクボードを見ている2人" → A評価
- BLIP-2 FLAN: "ボートの上で誰かがサーフィンを見ている" → C評価
- VIT-GPT2: "サーフボードを持った2人がボートの上に立っている" → E評価 （不正確）

quilt8703 2025-03-14

私はTwitterなどに投稿する画像にalt-textを付けているのですが、これをAIに任せれば、自分が投稿を上げるのが少し楽になるのではないかと思ったことがあります。LLMが必要かどうかはよく分からず、CLIPのような技術で十分な気もしていました。

私がその作業をしてこなかった理由の一つは、そうした作業はスクリーンリーダー側に十分組み込める機能であり、私は人が提供できる文脈を少しでも付け加えるほうがよい気がしていたからです。もちろん一番大きな理由は、面倒だったからですが。