PaliGemma 2を公開

(developers.googleblog.com)

6 ポイント投稿者 lemonmint 2024-12-06 | まだコメントはありません。 | WhatsAppで共有

Googleは、Gemmaファミリーの最新ビジョン言語モデルであるPaliGemma 2を発表しました。PaliGemma 2は既存のGemma 2モデルをベースに、画像を理解して相互作用する機能を追加し、さまざまなAIアプリケーションの可能性を広げます。

拡張可能な性能: さまざまなモデルサイズ（3B、10B、28Bパラメータ）と解像度（224px、448px、896px）を提供し、多様なタスクに最適化された性能を実現します。
長いキャプション生成: 画像に対して詳細で文脈に沿ったキャプションを生成し、単純な物体識別を超えて、行動、感情、場面全体のストーリーを説明します。
新たな領域への拡張: 化学式認識、楽譜認識、空間推論、胸部X線レポート生成など、さまざまな分野で優れた性能を示します。
簡単なアップグレードとファインチューニング: 既存のPaliGemmaユーザーは簡単にアップグレードでき、特定のタスクやデータセットに合わせてモデルを容易にファインチューニングできます。

Gemmaverseエコシステムの拡大:

PaliGemmaのリリース以降、Gemmaファミリーは数万のモデルとアプリケーションを擁する活発なエコシステムであるGemmaverseへと急速に成長しました。ColPaliによる視覚的文書検索の進展、RoboFlowのファインチューニング技術、リアルタイム物体追跡の進歩など、さまざまな革新的事例がGemmaverseの可能性を示しています。

PaliGemma 2を公開

関連記事

まだコメントはありません。