9 ポイント 投稿者 xguru 2023-10-23 | まだコメントはありません。 | WhatsAppで共有
  • 自社製品で使用しているマルチモーダル(画像+テキスト)モデルの小型版
  • アーキテクチャと学習プロセスが非常にシンプル(画像エンコーダーなし)
  • デジタルエージェント向けに設計されており、任意の画像解像度をサポートし、グラフや図に関する回答やUIベースの質問への回答が可能
  • 大きな画像に対しても100ms以内に回答を生成できるほど高速
  • 自社のユースケース向けに最適化されているにもかかわらず、標準的な画像理解ベンチマーク性能も優れている
  • CC-BY-NCライセンスで公開

まだコメントはありません。

まだコメントはありません。