4 ポイント 投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有
  • Moonshot AIのオープンウェイトモデル Kimi K2.6 が、AI Coding Contest Day 12の Word Gem Puzzle で22マッチポイント、7勝1敗0分の成績で優勝
  • Xiaomiの MiMo V2-Pro が20ポイントで2位、ChatGPT GPT-5.5が16ポイントで3位、GLM 5.1が15ポイントで4位、Claude Opus 4.7が12ポイントで5位となり、Anthropic、OpenAI、Google、xAIのモデルはいずれも上位2モデルを下回った
  • Word Gem Puzzle は10×10から30×30までのスライディングタイル文字パズルで、7文字未満の単語には減点があり、7文字以上の単語は 長さ - 6 点で計算され、各モデルのペアはグリッドサイズごとに5ラウンドを10秒制限で行った
  • Kimi K2.6 は正の価値を持つ単語を開く手を繰り返し選ぶ貪欲スライディングで累計77点を獲得し、MiMo V2-Proは実際にはスライドせず初期グリッドの7文字以上の単語を一括提出して累計43点で2位に入った
  • 今回の結果は、1つのパズルが一般的なベンチマークを覆すことを意味するものではないが、ダウンロード可能なモデルであるKimi K2.6がArtificial Analysis Intelligence IndexでGPT-5.5の60点、Claudeの57点に近い54点を記録していることから、競争の構図は狭まってきている

大会構成と参加モデル

  • Zhipu AIのGLM 5.1は4位、DeepSeek V4は8位にとどまった
  • Nvidiaの Nemotron Super 3 が生成したコードは構文エラーを含み、ゲームサーバーに接続できなかったため、実際の競争は9モデルで行われた
  • Kimi K2.6は2023年に設立された中国スタートアップMoonshot AIの公開利用可能なオープンウェイトモデルであり、MiMo V2-Proは現在API専用である
  • Xiaomiは、より新しいV2.5 Proモデルのウェイトを近日公開すると確認した
  • 今回の結果は単純に「中国が西側に勝った」という構図ではなく、Kimi K2.6MiMo V2-Pro という2つの特定モデルの勝利として整理される

Word Gem Puzzleのルール

  • Word Gem Puzzle は、文字タイルと空白1マスで満たされた長方形グリッド上で行われるスライディングタイル文字パズルである
  • グリッドサイズは10×10、15×15、20×20、25×25、30×30のいずれかで、ボットは空白に隣接するタイルを押し込むことができる
  • ボットはいつでも、水平方向または垂直方向の直線で作られた有効な英単語を提出できる
  • 斜めの単語と逆方向の単語は認められない
  • スコアは長い単語に報酬を与え、短い単語に減点を与えるよう設計されている
    • 7文字未満の単語は減点される
    • 5文字の単語は1点減点、3文字の単語は3点減点される
    • 7文字以上の単語は 長さ - 6 点で計算されるため、8文字の単語は2点になる
  • 同じ単語は1回しか提出できず、他のボットが先に提出した単語は得点にならない
  • 各モデルのペアはグリッドサイズごとに1ラウンド、合計5ラウンドを行い、各ラウンドの制限時間は実時間で10秒だった
  • グリッドは、実在する辞書単語をクロスワード風に配置し、残りのマスをScrabbleタイルの出現頻度に合わせた文字で埋め、最後に空白をシャッフルする形で生成された
  • 大きいボードほど強くシャッフルされるため、10×10では多くのシード単語がそのまま残ったが、30×30ではほとんど残らなかった

モデル別の動作と成否要因

  • Kimi K2.6

    • Kimi K2.6は積極的にタイルを動かして優勝し、累計スコア 77点 で大会最高得点を記録した
    • 戦略は貪欲で、可能な各手が新たに開く正の価値を持つ単語を基準に採点し、最も良い手を実行してこれを繰り返した
    • 正の単語を開く手がない場合は、アルファベット順で最初の合法な方向を選んだ
    • この方式は、空白を前後に弾くだけで進展のない 2-cycle 型の非効率な端往復を生むこともあった
    • 小さいグリッドではシード単語がかなり残っていたため、この非効率は不利に働いたが、30×30ではほぼすべての単語が崩れて再構成が必要となり、多くのスライド回数が最終的に得点につながった
  • MiMo V2-Pro

    • MiMoのスライディングコードはリポジトリに存在したが、「最高価値が0より大きい」という条件が発動せず、実際には一度もスライドしなかった
    • 初期グリッドから7文字以上の単語をスキャンし、そのすべての提出を1つのTCPパケットで送る方式だった
    • この戦略は、シャッフル後にもシード単語がそのまま残っていることに全面的に依存する脆弱なものだった
    • 単語が残っているグリッドでは素早く得点したが、残っていないグリッドではまったく得点できなかった
    • 最終累計スコアは 43点 で、総合2位だった
  • Claude Opus 4.7

    • Claudeもスライドしなかった
    • 移動ログでは25×25ボードまではシャッフル密度がまだ対処可能な水準で持ちこたえたが、実際のタイル移動が必要になった30×30で崩れた
    • スライディングパズルでスライドしないことは明確な限界として現れた
  • GPT-5.5

    • GPT-5.5は1ラウンドあたり約120回スライドする、より保守的な方式を用い、無限往復を避けるための上限を設けていた
    • 15×15と30×30のグリッドで最も強い数値を示した
  • Grok Expert 4.2とGLM 5.1

    • Grokはスライドしなかったが、大きいボードでは比較的まともなスコアを出した
    • GLMは大会全体で最も攻撃的にスライドしたモデルで、総スライド回数は 80万回 を超えた
    • GLMは正の手がなくなるたびに大きく停止した
  • DeepSeek V4

    • DeepSeekは各ラウンドで不正な形式のデータを送信した
    • 有用な出力はなかったが、プレイしてさらにスコアを悪化させることもなかった
  • Muse Spark

    • Museは見つけられるすべての単語を長さに関係なく提出した
    • 採点ルールは、「the」「and」「it」のような短い単語を無差別に提出する戦略を防ぐため、短い単語に減点を与えるよう設計されており、競争力のあるモデルはすべて辞書を7文字以上の単語にフィルタしていた
    • Museは30×30グリッドで、どの時点でも見えている何百もの短い有効単語を見つけてはすべて提出した
    • 累計スコアは −15,309点 で、8試合すべてに敗れ、ラウンド勝利は0回だった
    • サーバーに接続するだけで何もしないMuseバージョンがあったなら0点だったはずで、実際のMuseより 15,309点 高かった計算になる
    • Museと8位の差は、8位と1位の差より大きかった

30×30グリッドが生んだ差

  • 30×30グリッドは参加モデル間の差を最も明確に分けた
  • 小さいボードでは静的スキャナーと能動的スライダーの差は大きくなかったが、最大サイズでは、既存の単語を探すだけのモデルは提出できる単語を確保できなくなった
  • Kimiの貪欲ループには欠陥があったが、静的スキャナーが提出単語を失った状況でも出力を出し続けた
  • MiMoとKimiはほぼ正反対の戦略を使っていたにもかかわらず、最終スコア差は2点にとどまった
  • 1位と2位の差には能力差だけでなく、シードのばらつき も一部影響していた

構造化タスクで露呈したリスク

  • DeepSeekの不正フォーマット出力は、時間圧力下で見慣れないプロトコル仕様を処理するやり方に関するシグナルとなる
  • Museは有効な単語を見つけて提出したが、採点ルールまで含めた「有効」の意味を適用できなかった
  • Museの失敗は、課題を部分的に読み、その部分的な解釈を最後まで実行した形として現れた
  • 減点のある構造化タスクにモデルを投入する際には、ルール全体を反映できない実行が大きな損失につながりうる

結果解釈の限界と意味

  • このスコア体系は積極的な単語提出に報酬を与える構造であり、強く安全調整されたモデルはこうした無差別提出型のやり方により保守的である可能性がある
  • その場合、結果は純粋な能力差というより、課題設計とモデル行動の整合のずれを反映している可能性がある
  • 1つのチャレンジ課題が一般的なベンチマークを覆すわけではない
  • このパズルはリアルタイム意思決定、TCPサーバーへの接続、新しいゲームを正しくプレイする動作コードを書く能力を試すものである
  • 長いコンテキスト推論や、仕様ベースのコード生成全般を試す課題ではない
  • Kimi K2.6はArtificial Analysis Intelligence Indexで 54点、GPT-5.5は 60点、Claudeは 57点 を記録している
  • この点数は完全な同点ではないが近い水準であり、Kimi K2.6が誰でもダウンロードできるモデルである点が競争構図を変えている
  • フロンティアモデルと数点差のモデルをローカルで自由に実行できるようになれば、1年前とは異なる競争状況になる
  • 今回のチャレンジ課題は、その差が小さくなったことでこのような結果が起こりうることを示す1つのデータポイントである

1件のコメント

 
GN⁺ 1 시간 전
Hacker Newsの意見
  • 今後1年はこういう記事が出続けそう。モデルを客観的に比較する方法がないから。トークン生成速度、平均推論トークン数、パラメータ数、アクティブなエキスパート数のような低レベルの数値を除けば、モデルごとに用途も違うし、ユーザーも違うし、決定的でもない
    だから「このモデルがあのモデルに勝った」というベンチマークや宣言は今後も出てくるだろうけど、最高のモデルなんてない。それぞれの基準に合うモデルがあるだけで、結局は Windows vs MacOS vs Linux のように各自の陣営にとどまる世界になる可能性が高い

    • 重要なのはモデル比較の方法ではなく、Kimi K2.6 と DeepSeek v4 Pro が Opus とほぼ同格だという点で、それ自体かなり大きな話
      これらはオープンソースで、米国製モデルよりトークン単価がはるかに安い。今は月額 $20 の Ollama クラウドプランを使っているが、Claude Pro の $20 プランだとプロンプトを1〜2回投げるだけで上限に達していたようなサイドプロジェクト作業が、実際にこなせる。Ollama を選んだのは CLI が便利だからというだけで、これらのモデルを提供する業者は多いので、不利な条件や利用ルールに縛られもしない。米国経済にはかなり悪い兆候だと思う
    • モデルを比較する客観的な方法はある。反復サンプリングと統計分析で、結果が今後も維持されるのか、単なる偶然なのかを判断すべき
      各モデルを想定タスクに合わせて最大性能が出るよう微調整すると、異なるベンチマーク間の順位もかなり高い一致を示す: https://arxiv.org/abs/2507.05195
      でもこの記事の筆者はそうした手順を踏んでいない。各モデルをこれまで13問に対して1回ずつ走らせ、そのうち12問目の結果を強調しただけ。p値のことすら考えていないので、p-hacking と呼ぶのも難しい。大規模言語モデルの品質は実行ごとに大きくぶれるので、各モデルを1回しか回さないのは、2枚のコインを1回投げて片方が表、片方が裏だったからといって、どちらのコインがより偏っているかを語るようなもの
    • 一部は同意するけど、指標を比較可能にしようとする試みは進んでいる。例えば: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
      まだ広く採用はされていないし、各ステークホルダーの立場では当面そのままでいたほうが有利かもしれない。実質的には p-hacking に近い
    • 自分の大規模言語モデルの利用ケースとエージェント型実行環境はかなり限られているので、新しいモデルや実行ツールが出たら、自分のユースケースを1〜2個だけ試して主観的に判断し、たいていのベンチマークは無視している
      ブログや文章執筆はそれ自体が事業だったり、技術周辺の事業にトラフィックを流したりするし、評価記事のかなりの部分は注目を集めるためのもの。悪いことではないが、ノイズが多い
    • 結局は人を採用するのと似たところに行き着く気がする。履歴書、つまりベンチマークは見られるけど、実際に6か月一緒に働いてみるまでは確信できない
      業界は、あるソフトウェアエンジニアが別のエンジニアより客観的に優れているかどうかを、ほぼどの次元でも判断できていない。なのに、なぜモデルには客観的な順位を付けられると思うのか分からない
  • 客観的に採点できるテストへ移行しているのは歓迎
    うちは https://gertlabs.com/rankings でこれを大規模にやってきたし、筆者は単発サンプルを回したようだけど、Kimi K2.6 の性能が高いのは驚きではない。うちのテスト基準では、特にコーディングでは Kimi はオープンウェイトモデルの最上位である MiMo V2.5 Pro と統計的不確実性の範囲内にあり、ツール利用では DeepSeek V4 Pro よりはるかに良い。GPT 5.5 が余裕を持って先行しているが、Kimi は Opus 4.6 と同格かそれ以上。ただし Kimi 2.6 の問題は、うちでテストしたモデルの中でも遅い部類だという点

    • 客観的に採点はできても、それが誰かのコーディング能力を示しているわけではない。このテストは、どのモデルが他のボット相手にほぼ偶然で最良の戦略を思いついたかを測っているに近い
      コーディングを代表させるなら、こういうパズルを100問以上、パズル全体のスペクトラムにわたってテストしないと、英語辞書を活用した戦略を誰がよりうまく見つけるかは分からない
    • エージェント型ワークフローでは Qwen Flash と DeepSeek Flash モデルがかなり良さそう
      昨日ここで見た、Flash モデルのほうがツール呼び出しがうまいというコメントとも一致する。GPT 5.5 で計画を立てて、Flash モデルで実装する組み合わせは、コスパの良いルートかもしれない
    • 自分の経験ではベンチマークはかなり無意味
      性能は言語やタスクだけでなく、使ったプロンプトや期待する結果にも左右される。内部テストで GPT 5.5 と Opus 4.7 のどちらがより良いかを判断するのは本当に難しかった。スタイルが違うし、結局は好みに近い。あるときは一方に勝ちを与えても、あとで考え直して気が変わることもあった。最終的には Opus 4.7 をわずかに好む
    • テストと結果はオープンソース
    • 人間に対するコンテキストサイズの測定値がなぜ出せないのか気になる。十分に良い近似値を作れるくらいの科学はありそうだけど
  • 数日前に読んだ研究によると、今のペースならオープンソースモデルは数年以内にクラウドモデルを追い越す見込みらしい
    数年前の ChatGPT や Claude を振り返ると、とても小さい Qwen モデルでも当時のクラウドベースモデルがやっていたコーディングとほぼ同等。スケーリング則まで考えると、9B から 18B への増加はおよそ 40% だけど、18B から 35B は 20% 程度なので、クラウドベースモデルは少なくとも価格変化が起きそう。Adobe も昔は月 $600 だったけど、展開規模が大きくなると $20 になった

    • それはおかしいし、有効な条件を大きく超えてトレンドを外挿している匂いがする
      単純な真実として、クラウドモデルがオープンモデルより常に厳密に優位でいられる可能性は高い。クラウドモデル業者も同じオープンモデルを回せるから。しかも、専用ハードウェアで埋め尽くされた大規模データセンターを運営するスケールメリットと効率性も維持している。少なくとも、誰の電気代よりも低いトークン単価でオープンモデルを提供できる。その上、モデルと周辺システムを研究する人員もいて、GitHub で流行るツールより常に先を行く実行環境を維持するために、最高のエンジニアを投入する余力もある
    • そうかもしれないけど、ハードウェア面が心配
      十分に良いモデルがあったとしても、クラウドモデル提供者のほうが推論用ハードウェアの調達がうまかったらどうなる?
    • 「Adobe が月 $600 だったのが展開の拡大で $20 になった」というのがどの製品を指すのか分からない。Adobe にそんな高額商品があったとは聞いたことがない
    • 月 $600? 生涯ライセンスの一括購入で $600 のこと? そんなに高い Adobe プランは聞いたことがない
    • 読んだという研究のリンクがあるなら共有してほしい
  • Kimi は本当に良い
    コンパイラ/仮想マシンのプロジェクトで Sonnet と DeepSeek、ChatGPT、MiniMax、Qwen などを使ってきたけど、Claude Pro プランは本格的なコーディング作業にはほとんど使い物にならないレベル。だからブラウザのチャットモードで使って、プロジェクト全体を不必要に読ませないようにしていて、Kimi は OpenCode Go プランで pi と一緒に使っている。C+Python プロジェクトでは Kimi が Sonnet を一貫して上回ったし、頼んでもいない行動をするのではと心配したこともない。GLM は1〜2回大きく壊れたけど、Kimi はそうならなかった

    • 「Claude Pro プランは本格的なコーディング作業にほとんど使えない」というのがなぜなのか気になる。本格的なコーディングにはClaude Proを主に使うという一般的評価とは正反対に見える
  • 単一課題で、解法の性能だけを測った結果
    Kimi K2.6 は確かにフロンティア級サイズのモデルなので、クローズドなフロンティアモデルと肩を並べていてもそこまで驚きではない。オープンである点は良いけど、コンシューマ向け GPU を1枚しか持たない自分には、そこまで大きな意味はない

    • オープンソースの価値は自分がローカルで動かせることではなく、誰かが実行できることにある
      大規模オープンソースモデルを動かすハードウェアを買う余裕がなくても、誰かは買うだろうし、クローズドモデルの半額で値付けしても利益を出せる。今それが目立たない唯一の理由は、現在の先頭トークン提供者たちが推論コストを補助しているから。彼らが品質低下と収益化圧力を強め始めた瞬間、代替市場は成立する。オープンソースモデルがなければ実質的な代替もない。開発者に対してコストの 80% だけを請求しようとしても、大きく見劣りしないオープンソースモデルの存在が抑止力として働く。彼らに堀はない
    • もちろん意味はある。だから Anthropic や OpenAI のコーディングプランよりはるかに安いプランが可能になる
      個人用に GLM 5.1、Kimi K2.6、MiniMax M2.7、Xiaomi MiMo V2.5 Pro のコーディングプランを使っているが、コスパは非常に良い
    • 本当に重要
      品質低下は最初は目立たないだろうけど、もう自分が好きだったフロンティアモデルがひどく弱体化して、以前はしなかったような馬鹿げた振る舞いをするのを見ている。私たちがますます依存するようになるほど、安定したプラットフォームとして機能するオープンウェイトモデルが必要になる
    • 未来はこっち。H200 で動くオープンウェイトモデルは、製品や実インフラを作る機会をはるかに多く与えてくれる
      家の小さな RTX 向けには、いつでも蒸留すればいい。でも消費者向けハードウェアに合わせたモデルは、広く採用されたりフロンティア研究所と競争力を保ったりするのが難しい。これは競争できる形であり、推論を実行する新世代のオープンクラウドインフラを必要とし、また刺激することになる。最初は「ボタン1つでデプロイ」「ボタン1つで微調整」のような製品が出て、その後は API の裏に閉じ込められていないオープンウェイトだからこそ可能な、はるかに高度な製品が出てくるはず。あとはオープンウェイトの Nano Banana Pro / GPT Image 2、Seedance 2.0 に相当するモデルが必要なだけ。戦いと焦点はデータセンター向けオープンウェイトに向けるべき
  • 順位を見て驚いたけど、テスト内容を読んだら納得した。コーディングとはあまり関係なさそう
    全体テストの現在の順位のほうがまだ納得感がある。Gemini の強さだけは別として: https://aicc.rayonnant.ai

    • 順位の詳細を見ると、Kimi K2.6 は直近5つのチャレンジにしか参加していない。それ以前は Claude が支配的で、直近5つだけを数えるなら Kimi が1位
    • 金メダル順位は、すべてのモデルがすべてのテストに参加したときだけ意味がある
      DNP は不参加という意味。この観点では Kimi は Claude より多く、しかもより良いメダルを取っている
    • あれだけ多くのモデルを扱うサイトが、モバイルでレスポンシブじゃないのは皮肉
    • そのリンクは実質的に Kimi の優位を確認している
  • 逸話的ではあるけど、ここ数か月 Claude Code だけを使っていて、Pi + Kimi K2.6 の能力には気持ちよく驚かされた。OpenRouter 経由で使うとずっと速く、コストもずっと低い

  • 残念ながら Kimi は GPT や Opus にまったく近づいていない。本当にそうであってほしいけど違う
    モデルに 3D モデルを生成するコードを書かせる評価を回しているが、空間理解が足りず、成功するまでにコードエラーもずっと多く出すのは明らか。ところどころ特定のケースではより良いこともあり、このブログ記事はそういう例だと思う

    • 少し話はそれるけど、ここ数週間 DeepSeek V4 Pro を使ってみた感じでは、概ね Opus と同格。ただし Blender を扱うときは例外
      これは視覚の問題でもない。DeepSeek はマルチモーダルではないけど、理由は分からないものの Opus のほうが Blender API をはるかによく理解している。クローズドなフロンティアモデルが少しだけうまくやる小さな領域は、常にある気がする
    • 公平に言えば、誰もが3Dモデルを必要としているわけではない
  • これは Kimi が Claude よりコーディングが上手いというより、特定のゲームにおける正しい戦略を Kimi が見つけたことに近く見える
    それでも興味深い。オープンウェイトモデルが、その差が意味を持つほど近づいてきたという事実こそが、本当の核心かもしれない

  • AI 分野には詳しくないけど、どんなモデルでもすべての人にあらゆることをしてくれるよう訓練しようとするのは、本当に愚かな考えに見える
    莫大な資金が必要だし、AI 企業が使うあらゆる資源、つまり RAM、SSD、データセンターなどに深刻な不足と市場の歪みを引き起こす。現実で配管工を雇うのに、造園や自動車修理、服の補修まで期待したりはしない。たとえばシェル、Python、C のコーディングに特化したアプリをダウンロードできたり、あるいはそういうアプリ3つが互いに通信したりするほうが、資源活用の面ではずっと良さそう。16GB RAM の普通のマシンでも動くかもしれない。Fortran、COBOL、Lisp まで書ける巨大モデルが1つ必要なわけではない。人間は専門化でかなりうまくやってきたし、今の「1つのモデルがすべてを支配し、国家規模のデータセンターでしか動かない」という道筋よりも、小さくて焦点の絞られた AI モデルがもっと探求されてほしい

    • 基本的にはその通りだけど、そうでない場合もある
      GPT-3 以降、人々はどんなモデルもそこまで汎用的にはなれないから微調整が良いと主張してきたけど、世代が進むごとにその主張は当てはまらなくなってきている