Grok-1.5 Vision Preview: 高度な視覚処理機能を備えた初のマルチモーダルモデルを紹介

(x.ai)

5 ポイント投稿者 brainer 2024-04-14 | まだコメントはありません。 | WhatsAppで共有

• 第1世代のマルチモーダルモデルであるGrok-1.5Vは、強力なテキスト機能に加えて、文書、ダイアグラム、チャート、スクリーンショット、写真を含む幅広い視覚情報を処理できるようになりました。

• Grok-1.5Vは、学際的推論、文書理解、科学ダイアグラム、チャート、スクリーンショット、写真など多様な領域で既存のマルチモーダルモデルを上回り、物理世界を理解するうえで卓越した能力を示します。

• 質問と容易に検証可能な回答を備えた700枚以上の画像で構成される、マルチモーダルモデルの基本的な実世界空間理解能力を評価するための新しいベンチマーク、RealWorldQAを紹介します。

• Grok-1.5Vは、早期テスターと既存のGrokユーザーがまもなく利用できるようになり、画像、音声、動画などさまざまなモダリティにまたがるマルチモーダル機能を積極的に拡張しています。

関連記事