- 1月に公開された Qwen2.5-VL シリーズをベースに、強化学習によってモデルを最適化し、32B パラメータ規模の新しい VL モデル Qwen2.5-VL-32B-Instruct を Apache 2.0 ライセンスの下でオープンソース化
- 以前のモデルと比べた、この 32B VL モデルの特徴:
- 人間の選好により合った応答: 出力スタイルを調整し、より詳細でよく整理された回答を提供。
- 数学的推論: 複雑な数学問題を解く精度が大幅に向上。
- 細かな画像理解と推論: 画像解析、コンテンツ認識、視覚的論理推論などのタスクで精度と詳細分析が強化。
性能
- 同クラスの最新モデルとの広範なベンチマークにおいて、Qwen2.5-VL-32B-Instruct は Mistral-Small-3.1-24B や Gemma-3-27B-IT といったベースラインモデルを上回り、より大規模な Qwen2-VL-72B-Instruct も超える成果を示す。
- 特に MMMU、MMMU-Pro、MathVista のような、複雑で多段階の推論を必要とするマルチモーダルタスクで大きな優位性を持つ。
- MM-MT-Bench では主観的なユーザー体験評価を重視し、Qwen2-VL-72B-Instruct を大きく上回る優れた性能を示す。
- 視覚能力だけでなく、同規模クラスで純粋なテキスト能力においても最高水準の性能を達成。
1件のコメント
Hacker Newsの意見
uvを使って、ライブラリをインストールせずに実行できる