5 ポイント 投稿者 GN⁺ 2025-03-25 | 1件のコメント | WhatsAppで共有
  • 1月に公開された Qwen2.5-VL シリーズをベースに、強化学習によってモデルを最適化し、32B パラメータ規模の新しい VL モデル Qwen2.5-VL-32B-Instruct を Apache 2.0 ライセンスの下でオープンソース化
  • 以前のモデルと比べた、この 32B VL モデルの特徴:
    • 人間の選好により合った応答: 出力スタイルを調整し、より詳細でよく整理された回答を提供。
    • 数学的推論: 複雑な数学問題を解く精度が大幅に向上。
    • 細かな画像理解と推論: 画像解析、コンテンツ認識、視覚的論理推論などのタスクで精度と詳細分析が強化。

性能

  • 同クラスの最新モデルとの広範なベンチマークにおいて、Qwen2.5-VL-32B-Instruct は Mistral-Small-3.1-24B や Gemma-3-27B-IT といったベースラインモデルを上回り、より大規模な Qwen2-VL-72B-Instruct も超える成果を示す。
  • 特に MMMUMMMU-ProMathVista のような、複雑で多段階の推論を必要とするマルチモーダルタスクで大きな優位性を持つ。
  • MM-MT-Bench では主観的なユーザー体験評価を重視し、Qwen2-VL-72B-Instruct を大きく上回る優れた性能を示す。
  • 視覚能力だけでなく、同規模クラスで純粋なテキスト能力においても最高水準の性能を達成。

1件のコメント

 
GN⁺ 2025-03-25
Hacker Newsの意見
  • オープンソースの中国モデル公開にとって大きな日だ。DeepSeek-v3-0324 が本日 MIT ライセンスに更新されて公開された(以前はカスタムの DeepSeek ライセンスだった)
  • 数か月前に Llama vision 3.2 を使ったが、速度と出力品質の面でとても失望した。Hugging Face で代替を探しているうちに Qwen を見つけた。精度と速度の差は圧倒的だった。画像を解析して応答を求めると、4090 で半秒ほどでたいてい正確な返答が得られる。さらに驚くのは、画像からエンティティ名を抽出する際、名前が途中で切れていても完全な名前を返してくれることだ(例: "Coca-C" が背景にぼんやり見えると "Coca-Cola" を返す)。あまり知られていないエンティティや、特定地域でしか知られていないエンティティもよく扱える。Qwen を使い始めてから、Llama や他のビジョンモデルには戻っていない
  • 32B モデルは今のところ自分が最も気に入っているモデルサイズのひとつだ。非常に強力でありながら、単一 GPU や、そこそこのスペックの Mac ノート(32GB 以上)で動かせる程度には小さい
  • このモデルは MLX でさまざまなサイズが利用可能になっている
    • uv を使って、ライブラリをインストールせずに実行できる
    • 約 18GB のモデルをダウンロードして、非常に印象的な結果を得られた
  • ばかげた質問かもしれないが、OpenAI や Claude などは、これだけ多くのオープンソースモデルがある中で、どうしてあれほど高い評価額になるのか不思議だ。彼らが消えるとか縮小すると言いたいわけではないが、なぜそこまで価値が高いのか気になる
  • オープンウェイトモデルの登場があまりに速く、追いかけるのが難しい。各モデルで何が「現行」なのかをまとめた一覧を管理している人がいるのだろうか
  • モデルをマルチモーダルにすることが、テキスト機能にどんな影響を与えるのか知っている人がいれば気になる。記事では純粋なテキストでも高性能だと主張しているが、実際にどの程度影響するのかを分析したものがあるのか知りたい。テキスト性能がむしろ向上すると主張する人もいるが、データなしでは信じにくいと思う
  • どの程度のサイズのビデオカードが必要なのか、もう少しよく知りたい。HuggingFace のリンクによれば bfloat16 なので、最低 64GB は必要そうに見える。-7B は自分の 16GB の AMD カードで動かせるだろうか?
  • Qwen は Alibaba Cloud が開発したものだ(ブログ記事のどこにも触れられていない)
  • 今日は Qwen、明日は Google の新しい SOTA モデル、来週には R2 が出る予定だ。まだ限界には達していない