Qwen3.6-35B-A3B、Claude Opus 4.7より優れたペリカン画像を生成
(simonwillison.net)- Qwen3.6-35B-A3B と Claude Opus 4.7 を比較し、「自転車に乗るペリカン」の画像を生成した結果、Qwen のほうが 完成度の高い画像 を出力
- Qwen モデルは Alibaba の最新バージョンで、Unsloth が配布した 20.9GB の 量子化モデル を MacBook Pro M5 上で LM Studio によりローカル実行
- Claude Opus 4.7 には 自転車フレームの表現ミス があり、
thinking_level: maxオプションを使っても品質改善はほとんど見られなかった - 「ペリカンベンチマーク」はもともと モデル比較を風刺するテスト だったが、今回の結果は ローカル LLM が商用モデルを上回り得る ことを示した
- Qwen3.6-35B-A3B は ローカル環境で実行可能な大規模モデルの競争力 を実証した事例
Qwen3.6-35B-A3B と Claude Opus 4.7 の比較実験
- Qwen3.6-35B-A3B と Claude Opus 4.7 の2モデルを対象に、「自転車に乗るペリカン」の画像を生成する比較実験を実施
- Qwen モデルは Alibaba が公開した最新バージョンで、Unsloth が提供した 20.9GB の 量子化(quantized) モデルを使用
- MacBook Pro M5 で LM Studio と llm-lmstudio プラグイン を通じてローカル実行
- Claude Opus 4.7 は Anthropic の最新クラウドモデルを使用
- 結果として、Qwen3.6-35B-A3B が より完成度の高いペリカン画像 を生成
- Claude Opus 4.7 では 自転車フレームを誤って表現 するエラーが発生
thinking_level: maxオプションを追加して再試行したが、品質向上はほとんどなかった
- 一部では、モデルがこの「ペリカンベンチマーク」に合わせて 訓練されていたのではないかという疑惑 も提起
- 筆者はこれを否定しつつ、結果の信頼性を検証するため 「一輪車に乗るフラミンゴ」 という新たなテストも追加で実施
- Qwen3.6-35B-A3B が再びより良い結果を示し、SVG コード内の 「」 コメントが印象的だったと評価
ペリカンベンチマークの意味と限界
- 「ペリカン自転車ベンチマーク」は本来、モデル比較の不条理さを風刺するためのジョーク的テスト として始まった
- しかし実際には、ペリカン画像の品質とモデルの全体的な性能の間に一定の相関 が存在してきた
- 2024年10月の初期の成果物は粗雑だったが、その後のモデルは次第に 実用可能なレベルのイラスト を生成するようになった
- 今回の実験では、その相関が 初めて崩れた
- Qwen モデルは優れた結果を出したが、21GB の量子化版が Anthropic の最新商用モデルより強力だと見るのは難しい との評価
- ただし 「自転車に乗るペリカンの SVG」 を生成する必要があるなら、現時点では ローカルで実行可能な Qwen3.6-35B-A3B のほうがより良い選択
- 全体として今回の比較は、ローカル LLM の進歩の水準 と 大規模商用モデルとの格差縮小 を示す事例と評価される
- とくに LM Studio 環境で大規模モデルを実行できる可能性 を実証した点が注目される
1件のコメント
Hacker Newsの意見
ベンチマークテストについては同意しがたい。Opus flamingo は実際の自転車のペダルやサドル、スポーク、くちばしまで機能的に表現されている。現実味という点では Qwen は完全に外れている。誰かが Qwen の結果をより好むというのはやや不思議だ。むしろ Qwen は Pelican データに過学習(overfitting) しているように見える
コーディング性能基準で見ると Qwen 3.6 35b a3b は Power Ranking 課題 98 件中 11 件を解いた。同じサイズの Qwen 3.5 は 10 件、Qwen 3.5 27b dense は 26 件、Opus は 95 件を解いた。つまり Qwen 3.6 はごくわずかな改善しかない
「ペリカンテスト」の面白さは理解できるが、もうこのテストが何を証明しているのか分からない。モデルが分布外の状況にどれだけうまく適応するかを見るなら、別の動物と別の活動の組み合わせ(例: スケートボードに乗るクジラ)で実験するほうがもっと意味があると思う
今日 Gemini でスライド図を修正しようとして時間を失い、諦めた。一発で面白くするのは得意だが、「この部分だけ少し変えてくれ」のような細かな修正はほぼ不可能だ。おもちゃと道具のあいだの ギャップ を痛感した
HN で「自分のノートPC」と言うと、いつも 高性能な MacBook を指している気がする。たいていのコンピュータより強力だ
Opus に直接「画像生成は得意か」と聞くと「いいえ」と答える。もともと画像生成向けに マーケティングされたことはない
言語には基本的に 空間的メタファー(spatial metaphor) が豊富に含まれている。たとえばお金が「増加する」ではなく「上に上がる」と表現される。こうしたメタファー的な構造がモデルの 重み空間の構造 にも反映されうる。だからモデルが複雑な戦略を学習するほど、こうしたパターンがより深まる可能性がある。今後、旧型モデルと新型モデルの活性化幾何を比較するプロジェクトをやってみたい
Opus と Sonnet は 4.1 バージョン以降、非コーディング作業の性能が徐々に低下 している
こういうデモが何を証明しているのか分からない。LLM は訓練された作業やその類似作業にしか強くない。SVG 生成 は本来そうした作業ではない。以前は訓練データに例が少なかったのでできなかったが、後に宣伝用として例を追加するとそこそこ可能になった。だが今でも実用的ではない。こうした改善は他の能力向上にはつながらない。モデルサイズの増加が止まった今は、特定作業への最適化が中心だ。もし訓練に含まれていない秘密の課題があるなら、それで本当の 汎化性能 を評価できるだろうが、これはそういうテストではない
私は イグアナ だが、自転車を洗車場に洗いに行かなければならない。歩くべきか、バスに乗るべきか悩んでいる