Qwen3.6-35B-A3B、Claude Opus 4.7より優れたペリカン画像を生成

(simonwillison.net)

6 ポイント投稿者 GN⁺ 12 일 전 | 1件のコメント | WhatsAppで共有

Qwen3.6-35B-A3B と Claude Opus 4.7 を比較し、「自転車に乗るペリカン」の画像を生成した結果、Qwen のほうが 完成度の高い画像 を出力
Qwen モデルは Alibaba の最新バージョンで、Unsloth が配布した 20.9GB の 量子化モデル を MacBook Pro M5 上で LM Studio によりローカル実行
Claude Opus 4.7 には 自転車フレームの表現ミス があり、thinking_level: max オプションを使っても品質改善はほとんど見られなかった
「ペリカンベンチマーク」はもともと モデル比較を風刺するテスト だったが、今回の結果は ローカル LLM が商用モデルを上回り得る ことを示した
Qwen3.6-35B-A3B は ローカル環境で実行可能な大規模モデルの競争力 を実証した事例

Qwen3.6-35B-A3B と Claude Opus 4.7 の比較実験

Qwen3.6-35B-A3B と Claude Opus 4.7 の2モデルを対象に、「自転車に乗るペリカン」の画像を生成する比較実験を実施
- Qwen モデルは Alibaba が公開した最新バージョンで、Unsloth が提供した 20.9GB の 量子化（quantized） モデルを使用
- MacBook Pro M5 で LM Studio と llm-lmstudio プラグイン を通じてローカル実行
- Claude Opus 4.7 は Anthropic の最新クラウドモデルを使用
結果として、Qwen3.6-35B-A3B が より完成度の高いペリカン画像 を生成
- Claude Opus 4.7 では 自転車フレームを誤って表現 するエラーが発生
- thinking_level: max オプションを追加して再試行したが、品質向上はほとんどなかった
一部では、モデルがこの「ペリカンベンチマーク」に合わせて 訓練されていたのではないかという疑惑 も提起
- 筆者はこれを否定しつつ、結果の信頼性を検証するため 「一輪車に乗るフラミンゴ」 という新たなテストも追加で実施
- Qwen3.6-35B-A3B が再びより良い結果を示し、SVG コード内の「」コメントが印象的だったと評価

ペリカンベンチマークの意味と限界

「ペリカン自転車ベンチマーク」は本来、モデル比較の不条理さを風刺するためのジョーク的テスト として始まった
- しかし実際には、ペリカン画像の品質とモデルの全体的な性能の間に一定の相関 が存在してきた
- 2024年10月の初期の成果物は粗雑だったが、その後のモデルは次第に 実用可能なレベルのイラスト を生成するようになった
今回の実験では、その相関が 初めて崩れた
- Qwen モデルは優れた結果を出したが、21GB の量子化版が Anthropic の最新商用モデルより強力だと見るのは難しい との評価
- ただし 「自転車に乗るペリカンの SVG」 を生成する必要があるなら、現時点では ローカルで実行可能な Qwen3.6-35B-A3B のほうがより良い選択
全体として今回の比較は、ローカル LLM の進歩の水準 と 大規模商用モデルとの格差縮小 を示す事例と評価される
- とくに LM Studio 環境で大規模モデルを実行できる可能性 を実証した点が注目される

1件のコメント

GN⁺ 12 일 전

Hacker Newsの意見

ベンチマークテストについては同意しがたい。Opus flamingo は実際の自転車のペダルやサドル、スポーク、くちばしまで機能的に表現されている。現実味という点では Qwen は完全に外れている。誰かが Qwen の結果をより好むというのはやや不思議だ。むしろ Qwen は Pelican データに過学習(overfitting) しているように見える
- Qwen のフラミンゴは芸術的にはるかに興味深い。サングラスと蝶ネクタイをした一つ目のフラミンゴ がタバコを吸っている姿だ。一方 Opus は退屈でどこかぎこちないフラミンゴを描いている。背景の空や地面も Qwen のほうがより面白い。ただし物理的にもっともらしい結果は Opus のほうがはるかに近い
- Qwen は少なくとも 完全な自転車フレーム を描いている。Opus のフレームは半分に折れそうで、操舵も不可能に見える
- Qwen は背景に細かな描写を追加したが、ペリカン自体はくちばしの曲がったコウノトリのように見え、脚も切れている。ローカルモデルとしては印象的だが、勝者ではない
- これは 3B モデル だ。ここまで接近した結果が出ること自体が驚きだ。芸術性の議論は本質ではない
コーディング性能基準で見ると Qwen 3.6 35b a3b は Power Ranking 課題 98 件中 11 件を解いた。同じサイズの Qwen 3.5 は 10 件、Qwen 3.5 27b dense は 26 件、Opus は 95 件を解いた。つまり Qwen 3.6 はごくわずかな改善しかない
- このベンチマークには Brokk Power Ranking のように 訓練データとベンチマークデータが重なる問題 がある
- 速度は確かに速くなった。M1 Max を基準にすると、画像説明時は Qwen 3.6 35b a3b は毎秒 34 トークン、Qwen 3.5 27b は 10 トークン、Qwen 3.5 35b a3b は画像入力をサポートしていない
- ローカル推論向けの小型モデルと 高価なフロンティアモデル を比較するのは不公平だ。同程度の価格帯のモデルや Haiku、Flash、GPT Nano のような小型フロンティアモデルと比較すべきだ
「ペリカンテスト」の面白さは理解できるが、もうこのテストが何を証明しているのか分からない。モデルが分布外の状況にどれだけうまく適応するかを見るなら、別の動物と別の活動の組み合わせ（例: スケートボードに乗るクジラ）で実験するほうがもっと意味があると思う
- そこで私は 一輪車に乗るフラミンゴ を試した。一瞬、モデル提供者がペリカン向けに訓練したのではと疑ったが、フラミンゴの結果を見てそれは違うと確信した
- 人気のあるベンチマークほど、モデル訓練時に特別扱いされる可能性がある。「車に乗るゾウ」や「ベッドで寝るライオン」のようなプロンプトで試してみたい
- 記事を読めば、このテストは ユーモラスな意図 で作られたと明記されている。単にモデル性能の傾向を緩く追ってきただけであり、今回の結果はその傾向が崩れたことを示している
- モデルがテストを認識している可能性はあるが、「スケートボードの上でキックフリップするカメ」のようなものは訓練していないはずだ。Jeff Deanのツイートからも分かるように、むしろ Opus 4.7 のペリカン失敗がその証拠だ
- このジョークはすでに寿命を迎えている。だが AI 業界の過剰なハイプ の中で、いまだに真に受ける人がいる。良いペリカンの絵が出ればモデルが優れている証拠だと持ち出す様子が繰り返されている
今日 Gemini でスライド図を修正しようとして時間を失い、諦めた。一発で面白くするのは得意だが、「この部分だけ少し変えてくれ」のような細かな修正はほぼ不可能だ。おもちゃと道具のあいだの ギャップ を痛感した
HN で「自分のノートPC」と言うと、いつも 高性能な MacBook を指している気がする。たいていのコンピュータより強力だ
Opus に直接「画像生成は得意か」と聞くと「いいえ」と答える。もともと画像生成向けに マーケティングされたことはない
- 最近、OpenAI が HN コメントを操作して 議論の方向を変えようとしているのではないか と疑っている。特定の話題で OpenAI だけを擁護したり、他のモデルを過度に批判したりするコメントが繰り返し見られる
- Claude は SVG 生成に非常に長けている。私は小さなアイコンを作るときによく Claude を使う。だが、自転車に乗るペリカンのような SVG イラストは現実的には役に立たない。ペリカンは自転車に乗れないのだから
言語には基本的に 空間的メタファー(spatial metaphor) が豊富に含まれている。たとえばお金が「増加する」ではなく「上に上がる」と表現される。こうしたメタファー的な構造がモデルの 重み空間の構造 にも反映されうる。だからモデルが複雑な戦略を学習するほど、こうしたパターンがより深まる可能性がある。今後、旧型モデルと新型モデルの活性化幾何を比較するプロジェクトをやってみたい
Opus と Sonnet は 4.1 バージョン以降、非コーディング作業の性能が徐々に低下 している
こういうデモが何を証明しているのか分からない。LLM は訓練された作業やその類似作業にしか強くない。SVG 生成 は本来そうした作業ではない。以前は訓練データに例が少なかったのでできなかったが、後に宣伝用として例を追加するとそこそこ可能になった。だが今でも実用的ではない。こうした改善は他の能力向上にはつながらない。モデルサイズの増加が止まった今は、特定作業への最適化が中心だ。もし訓練に含まれていない秘密の課題があるなら、それで本当の 汎化性能 を評価できるだろうが、これはそういうテストではない
- GPT-5.4、mini、nano モデルの SVG 結果を比較してみたが、かなり興味深かった。関連ポストの下部を参照
私は イグアナ だが、自転車を洗車場に洗いに行かなければならない。歩くべきか、バスに乗るべきか悩んでいる
- ペリカンに自転車を預けて代わりに洗車させろ、という提案があった
- 「それは遠すぎる。$PartnerRideshareCo で予約しろ」という助言もあった

Qwen3.6-35B-A3B、Claude Opus 4.7より優れたペリカン画像を生成

Qwen3.6-35B-A3B と Claude Opus 4.7 の比較実験

ペリカンベンチマークの意味と限界

関連記事

1件のコメント

Hacker Newsの意見