Qwen VLo - 世界を「理解」することから「描写」することへ

(qwenlm.github.io)

1 ポイント投稿者 GN⁺ 2025-06-29 | 1件のコメント | WhatsAppで共有

Qwen VLoは統合マルチモーダル理解・生成モデルで、画像理解だけでなく高品質な画像生成も提供する
ユーザーは自然言語で創造的な指示を出すことができ、スタイル変換、背景変更など多様な画像を直接生成・編集できる
多言語をサポートし、世界中のユーザーが言語の壁なく手軽に利用できる
画像を継続的に改善・最適化する段階的生成方式を採用し、向上した視覚品質と高い制御性を提供する
まだプレビュー段階のため、一部機能の不安定さがある可能性はあるが、継続的に改善中である

紹介

マルチモーダル大規模モデルの発展は、技術の限界を絶えず押し広げている
QwenVLからQwen2.5 VLに至るまで画像コンテンツ理解を強化してきたが、今やQwen VLoは理解と生成の両方を担う新しいマルチモーダルモデルとして登場した
Qwen VLoは世界を「理解」することにとどまらず、その理解を土台にディテール豊かな画像を「生成」することまで可能にする
このモデルは知覚と創造の境界を実質的に結びつける
現在はプレビュー版としてQwen Chatで利用可能で、「かわいい猫の絵を生成」のような指示で画像を作成でき、画像をアップロードした後に「猫に帽子をかぶせる」のような編集も行える。

創造的生成プロセス

Qwen VLoの画像生成を実演する動画で見られるように、このモデルは段階的生成手法を用いる
左上から右下へ向かって画像を徐々に構築し、予測を継続的に高度化して一貫性があり調和の取れた結果を実現する
この生成メカニズムは視覚的品質を高め、ユーザーが創造的プロセスをより柔軟かつ細かく制御する助けとなる。

理解力から創造性へ: 強化されたマルチモーダル生成能力

Qwen VLoの主な強化点

精密なコンテンツ理解と再現
- 従来のマルチモーダルモデルでは、生成過程で意味の不一致（例: 自動車を誤認したり構造を失ったりする現象）があった
- Qwen VLoはディテールを捉える能力が高まり、高い意味的一致性を維持する
- たとえば、自動車写真の色変更を求めると、実際の車種と構造は維持したまま自然に色だけを変え、リアルな結果を生み出す
オープンエンドな指示ベース編集のサポート
- ユーザーは「この絵をVan Goghスタイルで」「19世紀の写真のように」「晴れた空を追加」といった自由な創造的指示を自然言語で入力できる
- スタイル変換、シーン再構成、細部修正はもちろん、ディープラーニングの伝統的なビジョンタスクである深度マップ、セグメンテーション、エッジ推定まで簡単な指示で可能だ
- 複合指示（例: オブジェクト修正+テキスト編集+背景変更）も一度に実行できる
多言語指示のサポート
- Qwen VLoは中国語、英語など多様な言語による操作をサポートする
- 言語の壁なく、グローバルな使いやすさを提供する

デモ活用事例

Qwen VLoは人間のアーティストのように、理解力を基に想像を形にする。背景置換、被写体追加、スタイル変換、オープンエンドな指示に基づく大規模編集、さらに検出・分割への対応が可能である。

特に、理解に基づく再生成機能により、漫画→実写、特定の人物→風船といった幅広い創作スタイル変換をサポートする。

モデルの高度な画像・指示解読能力により複合コマンドを一度に実行でき、たとえばポスター制作、複数オブジェクトの結合など、複数段階の作業を一括で完了できる

さらに、Qwen VLoは検出、分割、エッジ検出など、既存情報への注釈・マーキング機能もサポートする。

複数画像入力の処理機能も準備中（今後正式リリース予定）
テキスト+画像入力だけでなく、テキスト→画像生成（一般画像、中国語・英語混在ポスターなど）もサポートする
非常に長い横長・縦長比率フォーマット（最大4:1、1:3など）の画像生成をサポート（正式リリース予定）
モデルが自ら生成した画像を再度理解・分析し、犬や猫の品種判別なども可能である

使い方

Qwen VLoは動的解像度の学習と生成により、入力・出力画像の解像度と比率を自由に扱える。固定フォーマットに縛られず、希望するサイズの画像（ポスター、イラスト、Webバナー、SNSカバーなど）を制作できる。

生成メカニズム: 左上→右下の段階的生成（Progressive generation）
長いテキストを含む広告・漫画パネルなど、細かな制御が必要な作業では、プロセスをリアルタイムで微調整できる

制限

Qwen VLoはプレビュー段階であり、いくつか不足点がある。生成中に精度不足、原画像との不一致、指示不遵守、画像理解の不安定さなどが発生する可能性がある。継続的な改善と安定化アップデートが進められている。

次のステップ

マルチモーダル大規模モデルが双方向のテキスト・ビジョン入出力を備えるようになり、新しい表現・相互作用の方法が開かれつつある
今後、モデルはテキスト回答だけでなく、図表、補助線、強調表示などの視覚コンテンツによってアイデアを伝えられるようになるだろう。

発展した生成機能は、モデル自身の理解度の検証と改善にも活用されるだろう
たとえば、セグメンテーションマップ、検出マップなどの中間結果を直接生成しながら、自身の理解を証明・補完できる
このような研究の方向性を継続的に探求している

1件のコメント

GN⁺ 2025-06-29

Hacker News の意見

Qwen がオープンウェイトを公開しなかった点は残念に感じる。これまで Qwen の最大の強みの一つがオープンウェイト戦略だったからだ。4o の自動画像生成と競争できる、本当のオープンウェイトモデルが出てきてほしい。ウェイトへ直接アクセスできてこそ可能な面白い研究の方向性が数多くある。開発費の回収が問題なら、BFL の Flux Kontext Dev のリリースモデルを参考にするのがおすすめ。研究者と個人には無料でウェイトを公開し、スタートアップには妥当な価格で商用ライセンスを購入してもらう方式もある
- Qwen の画像は、OpenAI の出力で学習したことが明らかに表れている。画像にオレンジ色の光が差しているだけでも分かる（例1、例2、例3）。自前データの確保を試みたのかどうか気になる。結局 OAI をそのまま追いかけながら API の裏に隠してしまった。OAI のようにクローズドなだけでなく、性能も劣っている。こうした戦略は理解しにくいと感じる
- オープンウェイトを強調しつつ、研究者・個人向けの別ウェイトを用意し、スタートアップには商用ライセンス購入を求めるという提案なら、本当のオープンウェイトとは程遠い印象がある。「オープンソース」のように、望むままに使える自由があってこそ本当の意味でオープンだ。そうでなければ、オープンという言葉自体が意味を失いかねない
- 数千万ドル規模の投資、GPU コスト、エンジニアの人件費を、画像生成の料金だけで回収できるとは思わない
- 中国発のオープンウェイト時代が突然終わったような雰囲気がある。Alibaba は Qwen の公開をやめ、Tencent も Hunyuan の公開を止め、ByteDance も Seedream を閉じた。西側モデルで学習している状況も依然として明白だ。むしろ 100% オープンにして、インフラやサービスで収益化する戦略のほうが賢明だと思う
画像は言語モデルに渡される前に 256 トークンへ圧縮される。たとえば帽子を追加するよう依頼すると、顔全体を描き直してしまう。個別オブジェクトが別々に保存されているわけではなく、クマのキャラクターも一時的な存在にすぎない。すべては一つの融合された潜在空間に保存され、新しい条件のもとで再サンプリングされる。プロンプトを少し変えただけでも画像全体が変わる。つまり毎回新たにシーンを作る方式であり、さまざまな用途には向いているように感じる
- Flux Kontext では、マルチモーダルモデルのように細部がかなり保たれるのが気に入っている。GPT-Image-1 は「ジブリ風にする」のような全体的なスタイル変更には向いているが、フォトリアル画像に眼鏡を追加するような細かな変更ではディテールをうまく保持できない
クマ画像の編集例を見て、依頼した以上の部分が変わっていることに気づいた。背景だけ変えてほしいのにクマまで大きく変わっていたし、クマを風船に変えてほしいと頼むと背景の敷石が消えたり、スイカの種がなくなったりと、見当違いの変化まで起きている。これはプロンプトをもっと上手く書けば解決する問題なのか、それともモデル構造の限界なのか気になる
- その両方だ。プロンプトを最適化すれば結果は多少よくなるかもしれないが、根本原因はモデル構造と学習方法、つまりアーキテクチャと方法論の限界にある
ペリカンが自転車に乗る画像を試してみたし、アコーディオンの画像も生成してみた。指や鍵盤の黒い部分が誤って表現されるなど、細かな点には弱い。生成速度はかなり速い例のリンク
- Simon テストの核心が SVG フォーマットである点を見落としているようだ。自転車に乗るペリカンの画像は、Stable Diffusion 2/3 以降では簡単に解ける課題だ。難しいのはピクセル画像ではなく、SVG で論理的推論と正確性が求められる点にある
編集やスタイル変換などの画像変更例で、微妙に黄色がかった現象を見つけた。GPT Image 1 でも見られるが、Flux Kontext にはなかった。理由が気になる
どの画像にもアンキャニーバレー感がある。色も影もどこか不自然だ
- 出来上がり全体が粗い。研究用途でない限り、こうした画像の実用例は思い浮かびにくい
機械学習の研究者であり物理学の学位を持つ立場からすると、こうしたモデルに「理解」「説明」という言葉を使うことには抵抗がある。実際には役に立たず、むしろ混乱を招くだけだ。物理学で数学を使うのは精密さのためであり、コーディングもまた非常に具体的だ。私たちの人生は無数のディテールの影響を受けるが、モデルはそうした微妙さを捉えられない。Asimov の "Relativity of Wrong"（リンク）はぜひ読んでほしい。本当に「理解した」と言いたいなら、モデルは発見・推論・概念の再定義のような、これまで聞いたことのない結果を生み出すべきだ。人間は反事実的思考（リンク）を自然に行うが、現代の ML モデルはそうではない。元記事の画像にある指の本数の誤りや、キーボードのキー配列の誤りがその代表例だ。見た目はもっともらしくても、見れば見るほど不自然さが浮き彫りになる、典型的なアンキャニーバレー現象だ
- 実際に何かを作る立場からすると、こういう論争はうんざりする。入力と出力の概念を分かりやすく説明しただけでも十分価値がある。リリース文書を読めば、Qwen はもともと VLM として「理解・識別・認知」の役割を担っており、そこから「生成・描写・描画」へと能力が拡張されたことが分かる。これ以上の危機論や過剰な意味づけは不要だ
自動音声読み上げ機能をどうやってオフにするのか気になる。Web サイトを開いたら、ただ待機状態でいて、自分で操作したときだけ動いてほしい。Firefox で動画が全画面で自動再生されたあと、突然読み上げが始まった（iOS 環境）
- 設定 > サイト設定 > オーディオとビデオの自動再生をブロック。Android 版 Firefox ではその機能が使える。iOS やデスクトップにも似たオプションがあり、通知権限のリクエストも完全に遮断できる
4o 方式の画像生成アーキテクチャに関する技術レポートがあるのか気になる。似た方式で画像を生成する他モデルについても詳しく知りたい
個人的には、機械学習は「理解」よりも「描写」のほうがはるかに進歩していると思う
- 人間のほうが世界をよりよく理解していると考える根拠が気になる。人間は世界に対して感情的な反応を多く示すが、感情そのものが理解を与えるわけではない。「理解している」という言葉自体、実際には非常に主観的な基準にすぎない