PaliGemma 2を公開
(developers.googleblog.com)Googleは、Gemmaファミリーの最新ビジョン言語モデルであるPaliGemma 2を発表しました。PaliGemma 2は既存のGemma 2モデルをベースに、画像を理解して相互作用する機能を追加し、さまざまなAIアプリケーションの可能性を広げます。
- 拡張可能な性能: さまざまなモデルサイズ(3B、10B、28Bパラメータ)と解像度(224px、448px、896px)を提供し、多様なタスクに最適化された性能を実現します。
- 長いキャプション生成: 画像に対して詳細で文脈に沿ったキャプションを生成し、単純な物体識別を超えて、行動、感情、場面全体のストーリーを説明します。
- 新たな領域への拡張: 化学式認識、楽譜認識、空間推論、胸部X線レポート生成など、さまざまな分野で優れた性能を示します。
- 簡単なアップグレードとファインチューニング: 既存のPaliGemmaユーザーは簡単にアップグレードでき、特定のタスクやデータセットに合わせてモデルを容易にファインチューニングできます。
Gemmaverseエコシステムの拡大:
PaliGemmaのリリース以降、Gemmaファミリーは数万のモデルとアプリケーションを擁する活発なエコシステムであるGemmaverseへと急速に成長しました。ColPaliによる視覚的文書検索の進展、RoboFlowのファインチューニング技術、リアルタイム物体追跡の進歩など、さまざまな革新的事例がGemmaverseの可能性を示しています。
まだコメントはありません。