5 ポイント 投稿者 GN⁺ 2024-12-26 | 1件のコメント | WhatsAppで共有
  • Alibaba の Qwen チームが新しい視覚的推論モデル QvQ-72B-Preview を発表
    • 画像とプロンプトを入力すると、詳細な推論を実行する
    • 当初は Apache 2.0 と表示されていたが、現在は Qwen ライセンスに変更されている
  • 先行モデル QwQ との違い
    • QwQ はテキストベースの推論に焦点を当て、「思考の境界を反映する」メカニズムで設計された
    • QvQ はこれに視覚入力を加え、画像を基により深い分析を行う

QvQの使用例とテスト

  • Hugging Face Spaces で QvQ モデルを利用可能
    • 画像と単一のプロンプトを入力すると非常に長い応答を生成し、追加のプロンプト入力はできない
    • 入力画像を分析し、順を追って推論プロセスを説明する
  • テスト結果
    • ペリカン数: "Count the pelicans" プロンプトを使って、写真内のペリカン数をカウントした
      • 合計4羽のペリカンを正確に数え、部分的にしか見えない鳥は除外した
      • 親しみやすく対話的な文体で推論を説明した
      広告
    • ARC-AGIパズル: 複雑な問題を解こうと挑戦したが、正確な結果は出せなかった
      • セル・オートマトンのような独創的なアプローチを提案した
    • ドラゴン(恐竜)高さ推定: 比較対象となる物体がない状態でドラゴンの高さを推定する試み
      • 約8〜9フィートの高さを提案し、精緻な観察力を示した

QvQモデルの実行方法

  • ホスティング環境

    広告
  • ローカル実行

    • Prince Canuma が Apple MLX フレームワーク向けにモデルを変換し、mlx-vlm パッケージで実行可能
    • macOS M2 64GB RAM 環境で 4 ビット量子化版が無事に実行された
      • 実行コマンド:
        uv run --with 'numpy<2.0' --with mlx-vlm python \
          -m mlx_vlm.generate \
          --model mlx-community/QVQ-72B-Preview-4bit \
          --max-tokens 10000 \
          --temp 0.0 \
          --prompt "describe this" \
          --image pelicans-on-bicycles-veo2.jpg  
        
    広告

QvQライセンス変更

  • QvQ ライセンスは Apache 2.0 から Qwen ライセンスに変更された
    • これは初期の誤りの修正と思われる
  • QwQ モデルは引き続き Apache 2.0 ライセンスを維持している
    • 2モデル間でライセンス方針が異なることが確認された

結論

  • QvQ は画像とテキストを組み合わせた強力な視覚的推論モデルとして、さまざまな実験で興味深い結果を生み出した
  • 今後のアップデートとさらなる活用可能性が期待される

1件のコメント

 
GN⁺ 2024-12-26
Hacker Newsのコメント
  • M2 64GBのノートPCでQVQ-72B-Preview-4bitモデルを実行し、画像を解析する方法を説明している

    • uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg コマンドを使用した
    • 結果はリンクで確認できる
  • このモデルは面白い

    • 画像をアップロードして「この画像を見ながら考えを口に出してください」といった質問をすると、興味深い結果が得られる
    • 例えば、サンドイッチの画像を見て、詳細な描写と味の想像を誘導する出力を生成する
  • 単語探しパズル問題をテストに使ったが、QvQモデルは失敗した

    • AI StudioのGeminiリリースも最初は失敗したが、数回の試行で単語を見つけるのに成功した
    • 解決策を直接求めるより、プログラムを生成して問題を解く方が良い結果をもたらした
  • 有名な「タンク・マン」の写真を入力すると、空の応答が返ってきた

  • コメント投稿者によると、画像を見て考えを言語化する形式のデータセットがPixMoである

    • QvQも同様の形式で学習された可能性が示唆される
  • Q*モデルがオープンソースかどうかを質問した

    • 権威に対する振る舞いについて助言を求めると、強い服従を推奨した
  • ペリカンの写真について個数を数えるように尋ねた際の応答スタイルが面白い

    • GPT-4とは異なる、よりカジュアルな印象を与える
  • QvQ-72B-Previewモデルのライセンスについての議論があった

    • Apache 2.0ライセンスとQwenライセンスの間で混乱が見られた
  • QvQモデルは、有名人・犬・The New Yorkerの漫画といった写真を解析するのに優れた性能を示した

  • 数学の方程式画像を処理できる能力もある