Qwenの新しい視覚的推論モデルQvQの使用レビュー
(simonwillison.net)- Alibaba の Qwen チームが新しい視覚的推論モデル QvQ-72B-Preview を発表
- 画像とプロンプトを入力すると、詳細な推論を実行する
- 当初は Apache 2.0 と表示されていたが、現在は Qwen ライセンスに変更されている
- 先行モデル QwQ との違い
- QwQ はテキストベースの推論に焦点を当て、「思考の境界を反映する」メカニズムで設計された
- QvQ はこれに視覚入力を加え、画像を基により深い分析を行う
QvQの使用例とテスト
- Hugging Face Spaces で QvQ モデルを利用可能
- 画像と単一のプロンプトを入力すると非常に長い応答を生成し、追加のプロンプト入力はできない
- 入力画像を分析し、順を追って推論プロセスを説明する
- テスト結果
- ペリカン数: "Count the pelicans" プロンプトを使って、写真内のペリカン数をカウントした
- 合計4羽のペリカンを正確に数え、部分的にしか見えない鳥は除外した
- 親しみやすく対話的な文体で推論を説明した
- ARC-AGIパズル: 複雑な問題を解こうと挑戦したが、正確な結果は出せなかった
- セル・オートマトンのような独創的なアプローチを提案した
- ドラゴン(恐竜)高さ推定: 比較対象となる物体がない状態でドラゴンの高さを推定する試み
- 約8〜9フィートの高さを提案し、精緻な観察力を示した
- ペリカン数: "Count the pelicans" プロンプトを使って、写真内のペリカン数をカウントした
QvQモデルの実行方法
-
ホスティング環境
- Hugging Face Spaces で GPU モデルの重みを使ったテストが可能
- qwen-vl-utils Python パッケージを活用して実行
-
ローカル実行
- Prince Canuma が Apple MLX フレームワーク向けにモデルを変換し、mlx-vlm パッケージで実行可能
- macOS M2 64GB RAM 環境で 4 ビット量子化版が無事に実行された
- 実行コマンド:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- 実行コマンド:
QvQライセンス変更
- QvQ ライセンスは Apache 2.0 から Qwen ライセンスに変更された
- これは初期の誤りの修正と思われる
- QwQ モデルは引き続き Apache 2.0 ライセンスを維持している
- 2モデル間でライセンス方針が異なることが確認された
結論
- QvQ は画像とテキストを組み合わせた強力な視覚的推論モデルとして、さまざまな実験で興味深い結果を生み出した
- 今後のアップデートとさらなる活用可能性が期待される
1件のコメント
Hacker Newsのコメント
M2 64GBのノートPCでQVQ-72B-Preview-4bitモデルを実行し、画像を解析する方法を説明している
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgコマンドを使用したこのモデルは面白い
単語探しパズル問題をテストに使ったが、QvQモデルは失敗した
有名な「タンク・マン」の写真を入力すると、空の応答が返ってきた
コメント投稿者によると、画像を見て考えを言語化する形式のデータセットがPixMoである
Q*モデルがオープンソースかどうかを質問した
ペリカンの写真について個数を数えるように尋ねた際の応答スタイルが面白い
QvQ-72B-Previewモデルのライセンスについての議論があった
QvQモデルは、有名人・犬・The New Yorkerの漫画といった写真を解析するのに優れた性能を示した
数学の方程式画像を処理できる能力もある