Qwen3-VLモデル公開 - より鋭い視覚、より深い思考、より広い実行力

(qwen.ai)

6 ポイント投稿者 GN⁺ 2025-09-26 | 2件のコメント | WhatsAppで共有

Qwen3-VLはビジョン・ランゲージのマルチモーダルモデルの最新世代であり、テキスト理解と生成、映像認識、空間推論、長文脈理解など全領域で向上した性能を提供
代表モデルQwen3-VL-235B-A22BはInstruct版とThinking版で公開され、それぞれ視覚認識とマルチモーダル推論で最先端の成果を記録
モデルはエージェント機能、ビジュアルコーディング、2D/3D空間推論、長文および長時間動画理解など、さまざまな実利用能力を強化
32言語のOCR、複雑な文書理解、マルチイメージ・動画処理まで対応範囲を拡大し、日常利用と専門用途の両方に適合
これはオープンソースコミュニティに最高水準のマルチモーダル基盤を提供し、今後の実世界の問題解決とAIエージェントの発展を加速させることが期待される

Qwen3-VLの紹介

Qwen3-VLはQwenTeamが開発した最新のマルチモーダルAIモデルで、画像、テキスト、表、文書、数式、グラフなど多様なデータ形式を包括的に処理・理解できることが特徴

主な特徴

ビジュアルエージェント機能: GUI認識、ボタンクリック、ツール呼び出しなどを実行し、コンピュータ・モバイル環境で自動化作業が可能
強化されたテキスト性能: 早期段階からテキストとビジュアルを同時学習することで、単一言語モデル水準の強力なテキスト処理能力を確保
ビジュアルコーディング: デザイン画像をHTML、CSS、JavaScriptコードに変換し、「見たままコーディング」を実現
空間理解: 2D絶対座標から相対座標へ拡張し、3Dグラウンディングまで対応してロボティクス・自動運転の基盤を整備
長文脈・長時間動画処理: 256Kトークンを標準サポートし、100万トークンまで拡張可能。2時間の動画も正確に記憶・検索可能
推論最適化（Thinking版）: 数学・STEM問題の解決に強く、MathVision、MMMU、MathVistaなどのベンチマークで最高性能

性能評価

Instruct版: Gemini 2.5 Pro、GPT-5など主要なクローズドモデルを上回る視覚認識性能を確保
Thinking版: 数学および科学のマルチモーダル推論で世界最高水準の成果を達成。特にMathVisionではGemini 2.5 Proを上回る
テキスト中心タスク: Qwen3-235B-A22B-2507と同等の性能
長時間動画テスト: 100万トークン入力でも99.5%の精度で高い安定性を実証
多言語OCR: 39言語中32言語で70%以上の精度を達成

アーキテクチャ改善

Interleaved-MRoPE: 時間・高さ・幅の次元を交差配置して長時間動画理解性能を強化
DeepStack: ViTの複数レイヤー特徴を融合し、精密なテキスト・画像アラインメント性能を向上
テキスト・タイムスタンプ整列: フレーム単位の時間情報と視覚コンテンツを精密に対応付け、イベント・行動検出の精度を改善

モデル機能

スマートフォン・PC操作エージェント: アプリ起動、ボタンクリック、フォーム入力の自動化
画像ベース推論: ツール呼び出しと組み合わせた複雑な分析が可能
フロントエンド開発支援: スケッチ→Webページ変換、UIデバッグ
2D/3D物体検出: 数百の検出ボックス生成と深度推定
汎用認識: 有名人、ブランド、植物、動物、アニメキャラクターを認識
創作支援: 画像ベースのストーリーテリング、コピーライティング、動画スクリプト生成
STEM問題解決: 段階的推論、因果関係分析、科学問題の解決
複雑な指示への追従: 多段階条件や構造化された要求にも対応
文書理解: 長いPDF、Webレイアウトの解釈、およびQwenVL Markdownフォーマットをサポート
マルチイメージ対話: 複数画像を比較・関連付けしながら文脈を維持
動画理解: 長時間動画内のイベント検出からコード生成まで対応

結論

Qwen3-VLはクローズドモデルを上回るオープンソースのマルチモーダルモデルであり、認識から推論、実行まで包括的に進化
単純な視覚認識にとどまらず、世界理解・推論・行動へと拡張されたモデルとして位置付けられ、実環境でのエージェント活用の基盤を提供

2件のコメント

crawler 2025-09-26

半年も経っていないGeminiのPR動画で見せた陸上競技の勝者が誰で、誰を逆転したのかを分かるだけでもすごいと思っていたのに

> 2時間の動画も正確に記憶・検索可能

これはいったい何を正確に記憶しているのか、本当に気になりますね

GN⁺ 2025-09-26

Hacker Newsの意見

昨日も触れたが、最近、建設プロジェクト向けの請求書の低画質画像を数百枚処理する必要があった。もともとは PIL/opencv、pytesseract、OpenAI まで使うスクリプトを回していたが、失敗が多すぎた。今日は本当にひどい品質の請求書を数枚 Qwen にかけてみたところ、必要な情報をすべて難なく抽出してくれた。さらに驚いたのは、tesseract の改善に使える bounding box 情報まで返してくれたこと
- 似たような作業が必要なら、Microsoft の Printed Text Recognition API もおすすめ
- なぜ Qwen を選んだのか気になる。Mistral には OCR 専用として宣伝されていた特化モデルが別にあり、実際に試したところ英語の古い本（80・90年代）ではかなりうまく動いた
- こういうモデルを 80年代の Apple ][ ゲームのスクリーンショット読解で試すのが好き。非常に低解像度・高密度で、たいていのオープンソースモデルが苦戦する領域
- 自分も衛星地図画像で VLLM モデルに土地境界の bounding box を推定させようとしたことがあるが、成果はなかった。より良い結果を出すためのコツがあるのか気になる
- 自分もスキャンのレイアウトを検出して OCR 性能を上げようとしたが、最終的には fine-tune した Qwen 2.5 VLM 7B のほうが良かった。答えはファインチューニングだと思う
中国は製造業でやったのと同じように、中核技術を取り込み、コスト/効率で 10 倍の最適化を繰り返している。本当に感心する。ベンチマークでは有名なモデルだが、今日はオープンソース SOTA 候補だと感じるほど。しかも今日はクローズドな 1 兆パラメータモデルまで公開し、lm arena で 3 位に入り、80GB モデルは 17 位、gpt-oss 120b は 52 位だった
関連リンク
- 説明、商品名、バージョン区分が相変わらず不明確。Qwen3-VL Plus（新モデル）と Qwen3-VL 235B（別モデル）は、名前が似ていても完全に別物だとはわかるが、どちらが優れているのか判断できないほど情報が曖昧。Qwen-Plus-2025-09-11、qwen3-235b-a22b-instruct-2507 も名前だけでは違いがわからない。OpenAI よりも命名がわかりにくい
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- 「単に最適化しているだけ」という表現は事実と異なる。Qwen チームは DeepStack のような新しいアイデアまで出している
  DeepStack 論文
  それに、「中国人」とひとくくりにするより、Qwen チーム自体に功績を帰すべきだと思う。世界中どの国にも優れた研究室もあれば、平凡な研究室もある
- 面白いことに、Kimi K2 のようなモデルは米国系モデルよりずっと自然な文章を生成する感覚がある。ベンチマーク成績は SOTA に届かなくても、実使用の体験は違う
- 米国も昔はこうした最適化に注力していたが、ここ 10〜15 年は、リソースをさらに投入する一方で最適化を軽視する雰囲気が強まっている。たとえば進歩的ウェブアプリのために RAM を増やし、CPU も高性能に替えたり、あるいはより多くの電力を確保したりする。根本的には、大学のアルゴリズムの授業で学んだことを実務に適用しないのが問題だと感じる。一方で中国は実際にそれを実践しており、米国のほうが滑稽に見えてしまう
サンフランシスコにいるなら、Qwen チームの米国初の公式イベントに参加する機会を逃さないでほしい。Qwen Lab の副代表が SF teach week で直接発表する予定
イベントリンク
Qwen チームのメンバーと直接交流できる貴重な機会
- すでに定員いっぱいだった ;-(
- 今の時代だと、ビザ発給の問題で米国入国自体が 50:50 かもしれないので、無事に来られることを願う
今回の Qwen の核心は、プロプライエタリな（クローズドな）モデルを上回るマルチモーダル性能を SOTA として示しながら、モデル重みを公開した点にある。自分の初期テストでも実際その通りのようで、引き続き試していくつもり。感嘆している
- 大半のマルチモーダル入力実装は性能が低いことが多い。Qwen も既存の商用ソリューションと比べて大きく先行しているとは言いにくいが、それでもこうして結果を公開してくれる試み自体がうれしい。マルチモーダル入力がこれほどきちんと動くモデルを作るのは決して簡単ではない
- 実際のところ、オープンソースモデルはサイズに関係なく、いつも「商用 SOTA に匹敵する」と主張する傾向があると感じる
現実的には、Qwen3-VL 235B パラメータモデル（FP16）には最低でも 512GB RAM が必要に見える。妥当な context window まで考えるなら、さらに多いかもしれない。CPU で動かさない前提で、1 万ドル以内の予算で自宅運用する方法があるのか知りたい。もし CPU だけが唯一の選択肢なら、vLLM + 複数システムのネットワーク接続（10/25/100Gbit）が最善なのか、それ以外にベストな選択があるのか知りたい
- 512GB ユニファイドメモリの Apple Mac Studio が約 1 万ドル。自宅でその程度の性能が必要で、資金に余裕があるなら、これが最も簡単。
  必ずしも FP16 で動かす必要はない。たいていは q8 まで量子化しても品質低下はほとんどなく、q4 以下でも性能低下を抑えて動かせる。q8 でも 235GB RAM が必要なので、RTX 5090（32GB VRAM）基準なら 8 枚必要で、価格も安くはない。マザーボードや CPU、8GPU の電源分配も別途考慮が必要。旧型の RTX 3090 や P40 でマイニングサーバーの中古を狙う手もあるが、コンシューマー向け GPU では 1 万ドル未満での実現は現実的に難しい。
  NVLink なしで複数台のコンピュータにモデルを分散させると速度低下が非常に大きいため、実用上は単一マシンを推奨する。CPU 性能も悪くない。重要なのはメモリ帯域幅なので、DDR5 メモリチャネルの多いサーバー向けまたはワークステーション向け CPU（例: AMD Ryzen Threadripper 7965WX、8 チャネル DDR5、5200 MT/s 対応、約 2500 ドル）が適している。
  最後に、本当に自宅で動かす必要があるのか、改めて考えることを勧める。目的次第ではあるが、ハードウェアに投じる 1 万ドルの価値は数年で急落するかもしれない。クラウドなら 1 万ドル分のクレジットをかなり長く使える
- CPU 以外の方式はたいてい電力増設が必要で、システムを別々の電気回路に配置する形で 2〜3kW 級のマシンを複数台回すとなると、膨大な追加コストがかかる
オープンウェイトでマルチモーダル SOTA を出した Qwen のおかげで、開発者として気持ちが Qwen に傾いている。少なくとも自分の心はもう奪われた
- もう勝負は決したと見てもよさそう。最近の米国発論文のトップ著者一覧を見ると、中国系の名前があふれている
- 彼らは収益を目的にしていないので、同じルールではない別のゲームをしている面もある
- ここまで心をつかもうとしている理由が、自分でも気になる
Qwen チームの寛大さに感謝している。すでに「Thinking」モデルで、社内の退屈な業務をいくつも自動化するクールなワークフローを作って使っている
Qwen thinking モデル
今度のリリースでは、食事の写真やユーザー写真の分類・キャプション生成などの新しいワークフローも適用する予定。とても素晴らしい
Qwen チーム関連モデルの参考
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
今回の発表は、自分が見た中で最も多くのベンチマーク数値を並べたものだと確信している。都合のいい指標だけを抜き出した発表ではない点は評価したい
- ベンチマークがすでに飽和した領域では、もはや数値を前面に出すこと自体に意味がなくなってきたようだ
残念ながら Qwen3-VL も依然として「余分な手足」テストには失敗する。Photoshop で脚が余分についている動物（例: 腹に脚のある犬、前脚が 2 組ある猫）の画像を紛れ込ませても、他のすべてのモデルと同じく、動物の手足の数は正常だと言い張る。「腹に脚があるように見える」と言っても、自分の見間違いだとして最後まで正常だと主張する。Qwen は画像が編集されていると知らせても、4 本で正しいと答える
- どの VLM もそうであるように、例外ケースには弱い。アナログ時計の読み取りは、過去に修正済みの人工データ 100 万枚を投入して特化させたケースだけが唯一通過した程度
  時計データセット
   D20 サイコロの例
  結局のところ、余分な手足のような事例も 100 万枚規模のサンプルデータを作らない限り正答できず、別の問題でもそのたびに新しいデータセットを作らなければならないという問題が繰り返される
- 奇妙な種の手足の数を数えるには明らかに不向きなモデル。ただし、学習データに多数含まれていたテーマでは不足なく機能するかもしれない
- もし Qwen モデルの画像編集命令機能を使って、手足の数には触れず別の部分だけを変更するよう頼んだ場合でも、結果的に手足の数を「正常」に修正しようとするのか気になる