- PaliGemmaはマルチモーダルモデルであり、物体検出やセグメンテーションなどのタスクで、他のVLM(ビジョン言語モデル)とは異なり優れた性能を示す
- 特定のタスクに対して性能を向上させるためにファインチューニングが可能
- 2024年のGoogle I/Oイベントで発表。SigLIPというビジョンモデルとGemmaという大規模言語モデルを組み合わせている
- トランスフォーマーデコーダとビジョントランスフォーマー画像エンコーダで構成され、画像とテキストの両方を入力として受け取り、テキストを出力し、複数言語をサポートする
- モデルは30億の結合パラメータを持つ比較的小規模なもので、商用利用が許可されており、画像/短い動画のキャプション、視覚的質問応答、テキスト読み取り、物体検出、物体セグメンテーションなどのタスク向けにファインチューニング可能
- シングルターンVLMであり、特定のユースケースに合わせてファインチューニングしたときに最もよく機能する
- 画像キャプション作成、動画キャプション作成、視覚的質問応答、セグメンテーションなどのタスクに適している
- OCR、ドキュメント理解、視覚的質問応答(VQA)、物体検出など、さまざまなコンピュータビジョンタスクで優れた性能を示す
- クローズドモデルでは解決しにくいカスタムアプリケーションの構築に有用であり、OCR分野でも性能とコスト効率の両面でトップクラスを示す
- ただしVLMの限界として、オープンエンドで複雑かつ微妙な推論ベースの問題には適しておらず、プロンプトに敏感な特性があるため利用には注意が必要
- PaliGemmaの公開により、マルチモーダルAIが大きく進展すると期待される。軽量なオープンモデルであり、誰でも自分専用の大規模ビジョン言語モデルをカスタム学習し、商用目的で展開できる
- 従来のLMMは非常に高価で、大きな計算能力を必要としたが、PaliGemmaはこうした限界を克服し、カスタムAIアプリケーションを作るための革新的なモデル
まだコメントはありません。