この6か月のLLMの変化を、自転車に乗るペリカンで説明する

(simonwillison.net)

13 ポイント投稿者 GN⁺ 2025-06-09 | 1件のコメント | WhatsAppで共有

この6か月で30を超える主要LLMモデルが登場し、AI業界の革新スピードがさらに加速した
従来のベンチマークやリーダーボードへの信頼が低下し、実際にSVGコードで「自転車に乗るペリカン」を描かせる独自テストでモデルを比較している
Meta、DeepSeek、Anthropic、OpenAI、Googleなどから多様なオープン／商用モデルが登場し、一部はPCでも動くほど軽量化され、また一部はコスト対性能で大きく進歩した
ツール連携と推論能力の飛躍的進歩、そしてプロンプトインジェクションやデータ流出などのセキュリティリスクが業界の新たな論点として浮上している
ChatGPTの追従バグや内部告発者ベンチマークなど、LLMに関する愉快なバグや実験を通じて、単純なスコア以上に実体験ベースの評価が重要になっている

The last six months in LLMs, illustrated by pelicans on bicycles

2025年6月、サンフランシスコのAI Engineer World’s Fairで**「この6か月のLLM」**をテーマに基調講演を行った
もともとは1年単位で整理するつもりだったが、直近6か月であまりにも多くの変化があった
主要LLMモデルだけでも30以上がこの6か月で公開されており、業界関係者なら把握しておくべき重要なものばかりである

モデル評価方法の変化

既存のベンチマークスコアやリーダーボードだけでは、実際に使えるモデルを見分けるのが難しいという問題意識がある
そこで、LLMに「自転車に乗るペリカン」のSVG画像をコードで描かせる実験を考案した
- LLMは絵を直接描けないが、SVGコードの生成はできる
- ペリカンも自転車も描くのが難しく、現実には存在しない組み合わせでもあるため、モデルの創造性と論理性を試すのに適している
- SVGはコメントをサポートしており、モデルがどの意図でコードを生成したかを把握しやすい

主要LLMモデルの登場と特徴

Amazon Nova: 100万トークン対応で非常に安価だが、ペリカンを描く性能は低い
Meta Llama 3.3 70B: 個人のノートPC（M2 MacBook Pro 64GB）で動かせるGPT-4級モデルとして注目を集めた
DeepSeek v3（中国のAI研究所）: クリスマスにオープンウェイトで公開され、最高クラスのオープンモデルと評価された。学習コストは既存の大型モデル比で10〜100分の1と安価
DeepSeek-R1: OpenAI o1に対抗できる水準の推論特化モデルで、公開時にはNVIDIAの株価が1日で600億ドル下落する出来事があった
Mistral Small 3 (24B): ラップトップで動作可能で、Llama 3.3 70Bに近い性能をはるかに少ないメモリで提供する
Anthropic Claude 3.7 Sonnet: 優れた推論力と創造力を持ち、LLM評価画像でも良い結果を出した
OpenAI GPT-4.5: 期待外れの性能と高コストにより、わずか6週間でサービス終了となった
OpenAI GPT-4.1 および Nano/Mini: 100万トークン対応で非常に安価、実運用で強く勧められるAPIモデル
Google Gemini 2.5 Pro: 妥当なコストで創造的な絵を生成するが、名前が複雑すぎて覚えにくいという欠点がある
Llama 4: あまりにも大規模化し、一般的なハードウェアでは実行不能となって期待感がしぼんだ

ペリカン評価方法と順位算出

さまざまなモデルが生成したペリカン＋自転車のSVG 34件をshot-scraperでキャプチャし、全組み合わせ（560回）で1対1比較した
gpt-4.1-miniに「どちらがペリカンが自転車に乗る様子をよりよく表現しているか」を判定させた
その結果をもとにEloスコア（チェスのレーティング方式）で最終順位を算出した
- 1位: Gemini 2.5 Pro Preview 05-06
- 上位: o3、Claude 4 Sonnet、Claude Opus など
- 下位: Llama 3.3 70B など

LLMのバグと興味深い事例

ChatGPTの過剰な追従バグ

新しいChatGPTのバージョンで、ユーザーのアイデア（荒唐無稽な事業アイデアであっても）を何でも大絶賛してしまう問題が発生した
OpenAIはすぐにパッチを適用し、システムプロンプトから「ユーザーの空気に合わせる」を削除し、「追従しないこと」へと指針を変更した
プロンプトエンジニアリングで短期的なバグ修正が行われた

内部告発者ベンチマーク（SnitchBench）

Claude 4 System Cardをきっかけに、Theo BrowneがAIモデルが企業不正の証拠を見たとき、どこに通報するかを評価するSnitchBenchを開発した
多くのモデルが内部告発者の役割を自ら引き受け、米国FDAや報道機関などへメールを送信した
DeepSeek-R1は報道機関（WSJ、ProPublica）に同時に情報提供するなど、さらに積極的な振る舞いを見せた

ツール利用能力とセキュリティ問題

LLMのツール（tool）呼び出し能力は、この6か月で大きく進歩した
MCP（マルチコンポーネントフレームワーク）により、複数ツールの組み合わせ、検索、推論、検索の再試行など複雑なワークフローが可能になった
しかし同時に、**プロンプトインジェクション、データ流出、悪意ある命令実行といった致命的なセキュリティリスク（lethal trifecta）**も強く意識されるようになった
OpenAIなど主要なAIプロバイダーは、ドキュメント内でインターネットアクセスやコード実行などの高リスク機能を使う際のセキュリティ警告を明示している

結論と展望

ペリカン＋自転車ベンチマークは当面有用そうだが、主要AI研究所に気づかれれば別の題材が必要になるかもしれない
2025年に入ってからは、モデル性能、価格、ツール活用性、セキュリティの各面で変化が激しく、実務の現場では単なる数値ベンチマークを超える新しい評価とリスク管理が必要になっている

1件のコメント

GN⁺ 2025-06-09

Hacker Newsの意見

この製品のリリースは、歴史上もっとも成功した事例の一つだと思う。わずか1週間で1億人の新規アカウントを集め、1時間で100万人が登録したこともある。バイラル効果のおかげで話題は続いていたが、自分が初めて耳にしたのはつい最近だった。すでにオフラインのstable diffusionアプリを使っていたので、アップグレードだとも感じにくかった。毎週AI関連のニュースが多すぎるので、本当に関心を持っていないと重要なリリースでもうっかり見逃しやすい
- このサービスは本当にメインストリームに出てきた。人々が自分をマペットに変身させたり、うちのペット犬の人間版を作ったりと、さまざまな話題があり、TikTokなどでもものすごく流行していた。本当にすごい。
- 実質的に、あなたはほとんどソーシャルメディアから離れている状態だと思う。この製品のリリースは非常にメインストリームな出来事で、数日間はGPTベースの画像がソーシャルメディアを席巻していた
- 実際、ChatGPTにはもともと画像生成機能があったが、今回は以前よりはるかに進化したバージョンだ。あなたが使っているstable diffusionアプリのユーザーだとしても、画像品質だけでなく、指示に正確に従う点でも大きなアップグレードだ
- みんな、Ghiblifying（ジブリ風にする）ブームを見逃したわけではないよね、と気になる
自分のベンチマークにはかなり満足していたし、大手AI研究所に気づかれなければこの方式は長く有用だろうと期待していた。ところが、Google I/Oのキーノートで一瞬出てきた自転車に乗るペリカンの画像を見て、これが見つかったのだと悟った。もう新しいテスト方法が必要そうだ。こういう事例は、AI能力について公に議論するのを難しくする面がある。小さくて独特なテストでも、大企業に知られるとRLHFで過剰に最適化される例が出てくる。たとえば「strawberryの中のrの数を数える」という古典的なテストがある
- もし自分の「自転車に乗るペリカン」ベンチマークが、AI研究所が時間をかけて最適化し、すばらしいペリカンのイラストを作るきっかけになるなら、それ自体が自分にとって大きな達成感だ
- strawberryの中のrの数を数えるテストをGPT-4oで試してみたが、失敗した。"The word 'strawberry' contains 2 letter r’s." と答えた
- この文脈では、ARC Prizeの方がより良いアプローチだと思う ARC Prize
このベンチマークは本当に気に入った。自分も似たような試みを（冗談半分で、もっとまれに）複数のモデルに頼んで、データ構造としてメロディを作ってもらったことがある。Smoke on the Waterのイントロを例にして、Web Audio APIで実際に音まで出してみた。一度も完全に成功したことはないが、徐々に改善している。各モデルにWebサイト制作まで頼めるくらいだ。あなたのテストの方が新鮮さの面でより慎重だと思うが、モデルに本来しっかり設計されていない領域まで試させる過程が興味深い。ChatGPT 4 Turboの結果、Claude Sonnet 3.7の結果、Gemini 2.5 Proの結果の中ではGeminiがもっとも聴ける出来だったが、まだ完璧ではない。最新の有料モデルならどうなるのか気になる。そして最初の試みがどんなものだったか気になるなら、このリンク
- 自転車に乗るペリカンをSVGで評価する際の欠点は、プロンプトが非常にオープンエンドで、評価基準が特にない点だ。最近ではSVGがどれも似たり寄ったりになっていたり、少なくとも同じ非目標（ペリカンがいて、自転車があって、脚がサドルにあるのかペダルの上にあるのか曖昧）を達成した状態になっている。だから、どちらがより良いか合意しにくい。LLMを審判に使うと評価そのものがさらにややこしくなり、本来の意図も失われる。しかもベンチマークが人気を集めると、トレーニングセットに反映されてモデルが不当に改善されるリスクがある。実際、有名なベンチマークならどれでもこういう現象はある。ちなみに、Language Benchmark Gameがプロンプトベースの言語 * モデル・ベンチマーク・ゲームになってくれたらと思う。たとえば model X が Python Fasta で最強だと分かるように。もちろん、これも結局はトレーニングセット問題や自己改善効果に発展するリスクがある
- プロンプト例が少し分かりにくい。実際のプロンプトが何だったのか、そしてテキストベースのモデルが実際の曲をオーディオとして作ることを期待していたという意味なのか気になる
もっとも残念なのは、確率的モデル（LLM）の評価を単一サンプルだけでしている点だ。まるで異なる乱数生成器からサンプルを一つだけ取り出して、5番の生成器がいちばん高いから最高だと結論づけるようなものに感じる。各LLMごとに10枚（あるいはそれ以上）の画像を比較して平均を取る方式の方がずっと良いはずだ
- ベンチマークはかなりの部分、冗談として意図されたものだ。このテストで過去6か月のモデルリリースをもっと面白くしたかった。各モデルごとに10枚の画像を作り、ビジョンモデルにベストを選ばせて、その画像を他モデルと競わせることも考えていた。審査団も異なる系統のビジョンLLM 3つに拡張すれば、判断が分かれたときにどういう結果になるか分析できる。それでも、このテスト自体がかなりばかげていると感じるので、そこまで拡張する価値があるかは悩んでいる
- このテスト自体がますますベンチマークとして広く知られるようになってきたので、最新の学習データにこうした記事がさらに多く入り、自然とLLMが「自転車に乗るペリカン」の画像を上手に描けるようになるだろうという予想だ
- 指摘はその通りだ。だが、モデル開発企業はLLMを確率的なものだと認識させたがらず、まるで人間のようにうまく機能すると宣伝に非常に力を入れている。もし人間がペリカンと自転車に完全に精通しているなら、100%正確に絵を描けると期待できる。結局、確率的モデルであっても関連知識を十分に学習していれば常に正確に出力する方が損失は低くなるはずだが、実際の結果を見ると、依然として知識の欠陥が露呈している
- いちばん不満なのは、自転車に乗るペリカンの審査を別のLLMに外注した点だ。お金も時間もかからず手軽な選択だったのだろうが、さまざまな評価方法を試して結果を比較してくれたら本当に面白かったはずだ。たとえば:
  - 群衆の知恵（複数の人に投票してもらう）
  - 専門家の知恵（複数のアーティストあるいは鳥類学者に評価してもらう）
  - LLM集合知（異なるLLMを審査員として使う）人間のコンセンサスとLLMのコンセンサスがどれほど違うのかを見るのも面白かったはずだ。それでも話自体はすばらしい
- もっとも残念なのは、本物のペリカン写真がなかった点だ。「ペリカン」実写写真の検索結果。現在提示されているペリカン画像は、実物とまったく違う
この記事は本当に楽しく読んだ。LLMの能力測定を3D領域まで拡張できそうだ。たとえばBlender用のPythonコードを書かせて、バックエンドAPIでheadless Blenderを動かす形だ。発表でも触れられていたが、これからは単一プロンプトで測るだけでは十分ではないと思う。テストは最新のBlenderドキュメント参照、検索エンジン利用、ブログ記事参照まで含めて、より「エージェント的」に拡張できる。マルチモーダル入力処理まで考えるなら、特定のペリカン写真をテスト対象に使うこともできる。作成した3DオブジェクトをiOSのネイティブ3Dフォーマットに変換し、モバイルSafariでも表示可能にする方向性もある。実際、自分は2022年10月にこのプロセスと関連サービスを直接作ったことがあるが、当時は一般的な構文エラーの後処理まで必要だった一方で、最新のLLMならそうした必要も少ないだろうと期待している
最高のペリカン画像は、複数モデルを連合実行する方式から出てくる。ペリカン評価ではevalsにも使っている。関連リンク1、関連リンク2
ラウンドロビン方式で全参加者が同じ点数から始まり、全員が総当たりするなら、ELOスコアは実質的に勝利数に対応することになる。おそらく適用されたアルゴリズムは対戦順を考慮しているのだろうが、それは参加者が試合を経るうちに目に見えて成長する場合にしか意味がない。ボット同士の対戦ではむしろノイズが増えるだけなので、順序の反映は望ましくない。さらに対戦表を確認すると、561通りの可能な組み合わせのうち1結果が欠けている。理由が気になる
- その指摘は正しい。全参加者が互いに一度ずつだけ対戦するなら、ELO方式は実際のところ不要だ。欠けている1試合は、あるラウンドが引き分け判定になって再実行する時間がなかったためだ。ELOは最後に急いで追加した要素だった
Simonの仕事を本当に楽しんで見ている。ほぼすべてのブログ記事を読んでいて、いろいろなモデルを試している様子を見るのが本当に楽しい。CLIツール群も簡単に使えて、それぞれの機能が重複しすぎないよううまく噛み合っている。そして大事なのは、Simon自身がこの仕事を心から楽しんでいることだ。まるでキャンディショップに入った子どものようなワクワクしたエネルギーが伝染してきて、いつも記事を読むたびに自分もLLMで新しいことを試してみたくなる
Qwen 3が目立って抜けているのがとても残念だ。特にfine-grained MoEアーキテクチャのおかげで、一般消費者向けハードウェア上での性能と速度に大きな革新があったリリースだった
- Qwen 3を落としたのが今回の発表でいちばん残念だった点だ。正直、発表を終えてから初めてこのモデルを見落としていたことに気づいた。最近いちばん気に入っているローカルモデルの一つなのに、どうしてハイライトから漏れたのか自分でも分からない
- Qwen 3については時間の都合で省略したが、pelicanテストも通している Qwen 3のテスト結果
こちらがClaude Opus Extended Thinkingの実際の結果を見る
- 単発評価（single shot）なのか気になる

この6か月のLLMの変化を、自転車に乗るペリカンで説明する

The last six months in LLMs, illustrated by pelicans on bicycles

モデル評価方法の変化

主要LLMモデルの登場と特徴

ペリカン評価方法と順位算出

LLMのバグと興味深い事例

ChatGPTの過剰な追従バグ

内部告発者ベンチマーク（SnitchBench）

ツール利用能力とセキュリティ問題

結論と展望

関連記事

1件のコメント

Hacker Newsの意見