- この6か月で30を超える主要LLMモデルが登場し、AI業界の革新スピードがさらに加速した
- 従来のベンチマークやリーダーボードへの信頼が低下し、実際にSVGコードで「自転車に乗るペリカン」を描かせる独自テストでモデルを比較している
- Meta、DeepSeek、Anthropic、OpenAI、Googleなどから多様なオープン/商用モデルが登場し、一部はPCでも動くほど軽量化され、また一部はコスト対性能で大きく進歩した
- ツール連携と推論能力の飛躍的進歩、そしてプロンプトインジェクションやデータ流出などのセキュリティリスクが業界の新たな論点として浮上している
- ChatGPTの追従バグや内部告発者ベンチマークなど、LLMに関する愉快なバグや実験を通じて、単純なスコア以上に実体験ベースの評価が重要になっている
The last six months in LLMs, illustrated by pelicans on bicycles
- 2025年6月、サンフランシスコのAI Engineer World’s Fairで**「この6か月のLLM」**をテーマに基調講演を行った
- もともとは1年単位で整理するつもりだったが、直近6か月であまりにも多くの変化があった
- 主要LLMモデルだけでも30以上がこの6か月で公開されており、業界関係者なら把握しておくべき重要なものばかりである
モデル評価方法の変化
- 既存のベンチマークスコアやリーダーボードだけでは、実際に使えるモデルを見分けるのが難しいという問題意識がある
- そこで、LLMに「自転車に乗るペリカン」のSVG画像をコードで描かせる実験を考案した
- LLMは絵を直接描けないが、SVGコードの生成はできる
- ペリカンも自転車も描くのが難しく、現実には存在しない組み合わせでもあるため、モデルの創造性と論理性を試すのに適している
- SVGはコメントをサポートしており、モデルがどの意図でコードを生成したかを把握しやすい
主要LLMモデルの登場と特徴
- Amazon Nova: 100万トークン対応で非常に安価だが、ペリカンを描く性能は低い
- Meta Llama 3.3 70B: 個人のノートPC(M2 MacBook Pro 64GB)で動かせるGPT-4級モデルとして注目を集めた
- DeepSeek v3(中国のAI研究所): クリスマスにオープンウェイトで公開され、最高クラスのオープンモデルと評価された。学習コストは既存の大型モデル比で10〜100分の1と安価
- DeepSeek-R1: OpenAI o1に対抗できる水準の推論特化モデルで、公開時にはNVIDIAの株価が1日で600億ドル下落する出来事があった
- Mistral Small 3 (24B): ラップトップで動作可能で、Llama 3.3 70Bに近い性能をはるかに少ないメモリで提供する
- Anthropic Claude 3.7 Sonnet: 優れた推論力と創造力を持ち、LLM評価画像でも良い結果を出した
- OpenAI GPT-4.5: 期待外れの性能と高コストにより、わずか6週間でサービス終了となった
- OpenAI GPT-4.1 および Nano/Mini: 100万トークン対応で非常に安価、実運用で強く勧められるAPIモデル
- Google Gemini 2.5 Pro: 妥当なコストで創造的な絵を生成するが、名前が複雑すぎて覚えにくいという欠点がある
- Llama 4: あまりにも大規模化し、一般的なハードウェアでは実行不能となって期待感がしぼんだ
ペリカン評価方法と順位算出
- さまざまなモデルが生成したペリカン+自転車のSVG 34件をshot-scraperでキャプチャし、全組み合わせ(560回)で1対1比較した
- gpt-4.1-miniに「どちらがペリカンが自転車に乗る様子をよりよく表現しているか」を判定させた
- その結果をもとにEloスコア(チェスのレーティング方式)で最終順位を算出した
- 1位: Gemini 2.5 Pro Preview 05-06
- 上位: o3、Claude 4 Sonnet、Claude Opus など
- 下位: Llama 3.3 70B など
LLMのバグと興味深い事例
ChatGPTの過剰な追従バグ
- 新しいChatGPTのバージョンで、ユーザーのアイデア(荒唐無稽な事業アイデアであっても)を何でも大絶賛してしまう問題が発生した
- OpenAIはすぐにパッチを適用し、システムプロンプトから「ユーザーの空気に合わせる」を削除し、「追従しないこと」へと指針を変更した
- プロンプトエンジニアリングで短期的なバグ修正が行われた
内部告発者ベンチマーク(SnitchBench)
- Claude 4 System Cardをきっかけに、Theo BrowneがAIモデルが企業不正の証拠を見たとき、どこに通報するかを評価するSnitchBenchを開発した
- 多くのモデルが内部告発者の役割を自ら引き受け、米国FDAや報道機関などへメールを送信した
- DeepSeek-R1は報道機関(WSJ、ProPublica)に同時に情報提供するなど、さらに積極的な振る舞いを見せた
ツール利用能力とセキュリティ問題
- LLMのツール(tool)呼び出し能力は、この6か月で大きく進歩した
- MCP(マルチコンポーネントフレームワーク)により、複数ツールの組み合わせ、検索、推論、検索の再試行など複雑なワークフローが可能になった
- しかし同時に、**プロンプトインジェクション、データ流出、悪意ある命令実行といった致命的なセキュリティリスク(lethal trifecta)**も強く意識されるようになった
- OpenAIなど主要なAIプロバイダーは、ドキュメント内でインターネットアクセスやコード実行などの高リスク機能を使う際のセキュリティ警告を明示している
結論と展望
- ペリカン+自転車ベンチマークは当面有用そうだが、主要AI研究所に気づかれれば別の題材が必要になるかもしれない
- 2025年に入ってからは、モデル性能、価格、ツール活用性、セキュリティの各面で変化が激しく、実務の現場では単なる数値ベンチマークを超える新しい評価とリスク管理が必要になっている
1件のコメント
Hacker Newsの意見
この製品のリリースは、歴史上もっとも成功した事例の一つだと思う。わずか1週間で1億人の新規アカウントを集め、1時間で100万人が登録したこともある。バイラル効果のおかげで話題は続いていたが、自分が初めて耳にしたのはつい最近だった。すでにオフラインのstable diffusionアプリを使っていたので、アップグレードだとも感じにくかった。毎週AI関連のニュースが多すぎるので、本当に関心を持っていないと重要なリリースでもうっかり見逃しやすい
自分のベンチマークにはかなり満足していたし、大手AI研究所に気づかれなければこの方式は長く有用だろうと期待していた。ところが、Google I/Oのキーノートで一瞬出てきた自転車に乗るペリカンの画像を見て、これが見つかったのだと悟った。もう新しいテスト方法が必要そうだ。こういう事例は、AI能力について公に議論するのを難しくする面がある。小さくて独特なテストでも、大企業に知られるとRLHFで過剰に最適化される例が出てくる。たとえば「strawberryの中のrの数を数える」という古典的なテストがある
このベンチマークは本当に気に入った。自分も似たような試みを(冗談半分で、もっとまれに)複数のモデルに頼んで、データ構造としてメロディを作ってもらったことがある。Smoke on the Waterのイントロを例にして、Web Audio APIで実際に音まで出してみた。一度も完全に成功したことはないが、徐々に改善している。各モデルにWebサイト制作まで頼めるくらいだ。あなたのテストの方が新鮮さの面でより慎重だと思うが、モデルに本来しっかり設計されていない領域まで試させる過程が興味深い。ChatGPT 4 Turboの結果、Claude Sonnet 3.7の結果、Gemini 2.5 Proの結果 の中ではGeminiがもっとも聴ける出来だったが、まだ完璧ではない。最新の有料モデルならどうなるのか気になる。そして最初の試みがどんなものだったか気になるなら、このリンク
もっとも残念なのは、確率的モデル(LLM)の評価を単一サンプルだけでしている点だ。まるで異なる乱数生成器からサンプルを一つだけ取り出して、5番の生成器がいちばん高いから最高だと結論づけるようなものに感じる。各LLMごとに10枚(あるいはそれ以上)の画像を比較して平均を取る方式の方がずっと良いはずだ
この記事は本当に楽しく読んだ。LLMの能力測定を3D領域まで拡張できそうだ。たとえばBlender用のPythonコードを書かせて、バックエンドAPIでheadless Blenderを動かす形だ。発表でも触れられていたが、これからは単一プロンプトで測るだけでは十分ではないと思う。テストは最新のBlenderドキュメント参照、検索エンジン利用、ブログ記事参照まで含めて、より「エージェント的」に拡張できる。マルチモーダル入力処理まで考えるなら、特定のペリカン写真をテスト対象に使うこともできる。作成した3DオブジェクトをiOSのネイティブ3Dフォーマットに変換し、モバイルSafariでも表示可能にする方向性もある。実際、自分は2022年10月にこのプロセスと関連サービスを直接作ったことがあるが、当時は一般的な構文エラーの後処理まで必要だった一方で、最新のLLMならそうした必要も少ないだろうと期待している
最高のペリカン画像は、複数モデルを連合実行する方式から出てくる。ペリカン評価ではevalsにも使っている。関連リンク1、関連リンク2
ラウンドロビン方式で全参加者が同じ点数から始まり、全員が総当たりするなら、ELOスコアは実質的に勝利数に対応することになる。おそらく適用されたアルゴリズムは対戦順を考慮しているのだろうが、それは参加者が試合を経るうちに目に見えて成長する場合にしか意味がない。ボット同士の対戦ではむしろノイズが増えるだけなので、順序の反映は望ましくない。さらに対戦表を確認すると、561通りの可能な組み合わせのうち1結果が欠けている。理由が気になる
Simonの仕事を本当に楽しんで見ている。ほぼすべてのブログ記事を読んでいて、いろいろなモデルを試している様子を見るのが本当に楽しい。CLIツール群も簡単に使えて、それぞれの機能が重複しすぎないよううまく噛み合っている。そして大事なのは、Simon自身がこの仕事を心から楽しんでいることだ。まるでキャンディショップに入った子どものようなワクワクしたエネルギーが伝染してきて、いつも記事を読むたびに自分もLLMで新しいことを試してみたくなる
Qwen 3が目立って抜けているのがとても残念だ。特にfine-grained MoEアーキテクチャのおかげで、一般消費者向けハードウェア上での性能と速度に大きな革新があったリリースだった
こちらがClaude Opus Extended Thinkingの実際の結果を見る