ローカルLLMを活用した画像のalt-text生成の比較
(dri.es)- ブログに保存された10,000枚の写真のうち、約9,000枚に
alt-textがない状態だった - そのため12個のLLM(大規模言語モデル)をテストし、このうち10個はローカルで実行、2個はクラウドベースのモデル(GPT-4、Claude 3.5 Sonnet)だった
alt-textの作成は視覚障害者向けのアクセシビリティを高める重要な作業だが、手作業で書くには負担が大きい- AIモデルが
alt-textを生成する精度をテストし、ローカルモデルが実用的な代替になり得るかを確認することが目的
テストしたAIモデル
- ローカルモデル(10個)
- 9個のモデルはMacBook Pro(32GB RAM)で実行
- 1個のモデルは友人の高性能マシンで実行
- クラウドモデル(2個)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)
主な性能比較
-
クラウドモデル(GPT-4o、Claude 3.5 Sonnet)
- 最も正確な
alt-テキストを生成 - 細部の描写に優れ、画像の雰囲気までうまく捉える
- 評価等級: A
- 最も正確な
-
ローカルモデルの中で高性能だったモデル
- Llama 3.2 Vision 11B
- 正確な物体認識と文脈理解に優れる
- 評価等級: B
- Llama 3.2 Vision 90B
- 11Bモデルよりわずかに高い精度を示したが、実行にはより多くのRAMが必要
- 評価等級: B
- MiniCPM-V
- 比較的軽量なモデルでありながら強力な性能を示す
- 評価等級: B
- Llama 3.2 Vision 11B
-
低い性能を示したモデル
- VIT-GPT2、GIT、BLIPなどの初期モデルは物体認識が不正確で、反復的な文句を生成する傾向がある
- 評価等級: D〜F
AIモデルの画像分析方式
- ビジョンエンコーディング(Vision Encoding)
- 画像を小さなパッチに分割した後、それを数値データ(埋め込み)に変換
- 注目すべき部分(例: 主要な物体)をフィルタリングし、あまり重要でない要素(例: 単純な背景)を除外
- 言語エンコーディング(Language Encoding)
- ビジョンエンコーダが提供した情報をもとに自然言語テキストを生成
- 画像説明を書いたり質問に答えたりする形でテキストを生成
テスト画像と結果
-
渋谷スクランブル交差点(東京)
- GPT-4o、Claude: "ネオンサインと人混みであふれる渋谷スクランブル交差点" → A評価
- LLaVA 13B: "渋谷スクランブル交差点を人々が渡っている場面" → A評価
- Llama 3.2 Vision 11B: "東京のにぎやかな夜景、広告看板と人混み" → C評価
- VIT-GPT2: "高層ビルと信号機のある都市の夜景" → F評価 (不正確)
-
イザベラ・スチュワート・ガードナー美術館(ボストン)
- Claude: "ビクトリア様式の部屋、シャンデリア、金箔の額縁" → B評価
- Llama 3.2 Vision 11B: "金箔の額縁と装飾的な背景" → A評価
- BLIP-2 OPT: "壁に掛かった絵と額縁のある部屋" → C評価
- VIT-GPT2: "鏡の前にろうそくと花瓶が置かれた居間" → F評価 (不正確)
-
ウェイクボード(米バーモント州)
- GPT-4o: "ボートの上の2人がウェイクボーダーを見守っている場面" → A評価
- Llama 3.2 Vision 90B: "ボートの上でウェイクボードを見ている2人" → A評価
- BLIP-2 FLAN: "ボートの上で誰かがサーフィンを見ている" → C評価
- VIT-GPT2: "サーフボードを持った2人がボートの上に立っている" → E評価 (不正確)
評価結果
- クラウドモデル(GPT-4o、Claude 3.5 Sonnet): A評価
- 最も正確な説明を提供し、雰囲気まで捉える
- ローカルモデルの上位(Llama 11B、Llama 90B、MiniCPM-V): B評価
- 精度はクラウドモデルにやや劣るが、実用は可能
- 初期モデル(VIT-GPT2、GIT、BLIPなど): D〜F評価
- 反復的な表現やハルシネーションが発生
今後の検討事項
alt-テキストが完璧でない場合でも、ないよりは良いか?
B評価レベルのalt-テキストでも、ないよりは良い可能性がある- ただし、不正確な情報(例: 存在しない物体の追加)は視覚障害のあるユーザーに混乱を与える可能性がある
次のステップの選択肢
- AI出力を組み合わせる
- 複数のモデルを組み合わせて最も正確な説明を生成
- アップグレードを待つ
- 現時点で最良のローカルモデルを使い、6〜12か月後に新しいモデルへ更新
- クラウドモデルを使う
- 精度のためにクラウドベースモデルを利用するが、コストとデータプライバシーが課題
- ハイブリッドアプローチ
- AI生成の
alt-テキストを人がレビューして補完する(9,000枚に適用するのは現実的に難しい)
- AI生成の
- 現時点で最も合理的な選択は、ローカルモデルを使いつつ、将来さらに進化したモデルへ更新していく方法のようだ
1件のコメント
私はTwitterなどに投稿する画像にalt-textを付けているのですが、これをAIに任せれば、自分が投稿を上げるのが少し楽になるのではないかと思ったことがあります。LLMが必要かどうかはよく分からず、CLIPのような技術で十分な気もしていました。
私がその作業をしてこなかった理由の一つは、そうした作業はスクリーンリーダー側に十分組み込める機能であり、私は人が提供できる文脈を少しでも付け加えるほうがよい気がしていたからです。もちろん一番大きな理由は、面倒だったからですが。