7 ポイント 投稿者 GN⁺ 2026-02-13 | 1件のコメント | WhatsAppで共有
  • 強化学習ベースの大規模学習により、実環境での複雑なタスク遂行能力を高めたモデルで、コーディング・検索・オフィス業務など経済価値の高い領域で最高水準の性能を記録
  • SWE-Bench Verifiedで80.2%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%を達成し、前世代比で37%高速
  • **1時間あたり1ドル(100TPS基準)**の低コストで運用可能で、性能はClaude Opus 4.6と同等水準
  • コーディング・検索・オフィス作業全般で、構造的思考、効率的な検索、専門家レベルの文書作成能力を強化
  • MiniMax内部でも全業務の30%を自動実行し、コード生成の80%を担うなど、実際の生産性向上を実証

M2.5の概要と主要性能

  • M2.5は、数十万件の複雑な実環境における強化学習で学習されたモデルで、コーディング・ツール活用・検索・事務作業などでSOTA水準を達成
    • SWE-Bench Verified 80.2%、Multi-SWE-Bench 51.3%、BrowseComp(コンテキスト管理含む)76.3%を記録
  • SWE-Bench Verified評価ではM2.1より37%高速にタスクを完了し、Claude Opus 4.6と同じ処理速度を達成
  • 100TPS基準で1時間あたり1ドル50TPS基準で0.3ドルで運用可能で、コスト効率を最大化したモデル

コーディング性能

  • 多言語コーディング作業でSOTA水準に到達し、とくに10以上の言語(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)で優れた性能
  • コード作成前にシステム設計・UI構成・機能分解を行うアーキテクト型の思考構造を備える
  • 200,000件以上の実環境で学習されており、バグ修正だけでなく開発ライフサイクル全体(設計→開発→機能反復→テスト)を支援
  • VIBE-ProベンチマークではOpus 4.5と同等の性能、SWE-Bench Verifiedでは
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

検索とツール呼び出し

  • BrowseComp、Wide Searchなどで業界最高水準の性能を達成
  • RISE(Realistic Interactive Search Evaluation) により、実際の専門家レベルの検索能力を検証
  • 前世代比で20%少ない検索ラウンドで同じ結果を導き、トークン効率が向上
  • 複雑なエージェント作業でも、正確な探索経路と効率的な推論プロセスによって結果を導出

オフィス業務能力

  • 金融・法律・社会科学の専門家と協力してデータを構築し、フィードバックを反映
  • Word、PowerPoint、Excelなどで専門文書・財務モデリングを行う能力を強化
  • 内部評価フレームワークGDPval-MMで平均59.0%の勝率を記録
  • トークンコストあたりの生産性向上を実測し、実業務での効率性を検証

効率性と速度

  • 100TPSの基本処理速度で、他モデル比で約2倍高速
  • SWE-Bench Verified基準
    • M2.5: 平均3.52Mトークン、22.8分
    • M2.1: 3.72Mトークン、31.3分
    • 37%の高速化Claude Opus 4.6(22.9分) と同等水準
    • **コストはOpus 4.6の10%**水準

コスト構造

  • 2つのバージョンを提供: M2.5-Lightning(100TPS)M2.5(50TPS)
    • Lightning: 入力100万トークンあたり$0.3、出力100万トークンあたり$2.4
    • M2.5: 上記料金の半額
  • 出力基準のコストはOpus、Gemini 3 Pro、GPT-5の1/10〜1/20水準
  • 100TPSで1時間連続実行時は$1、50TPS時は$0.3
  • 年間$10,000で4インスタンスを常時運用可能で、大規模エージェント運用に適する

モデル改善速度

  • 3か月半の間にM2 → M2.1 → M2.5を連続リリースし、改善速度が競合モデル群(Claude、GPT、Gemini)より速い
  • SWE-Bench Verifiedで急峻な性能向上率を記録

強化学習の拡張 (RL Scaling)

  • 数十万件のRL環境を構築してモデル学習に活用
  • エージェント型RLフレームワーク Forgeを自社開発
    • 学習・推論エンジンとエージェントを完全に分離
    • 非同期スケジューリング最適化およびツリー統合戦略により、学習速度を40倍向上
  • CISPOアルゴリズムを用いて大規模MoEモデルの安定性を確保
  • プロセス報酬メカニズムにより、長いコンテキストでも品質を監視
  • 知能と応答速度のバランスのための作業時間評価体系を導入

MiniMax Agent統合

  • M2.5はMiniMax Agentに完全統合され、専門スタッフレベルのエージェント体験を提供
  • Office Skills(Word、PowerPoint、Excelなど)を自動ロードし、文書品質を向上
  • ユーザーはOffice Skillsと業界別の専門知識を組み合わせてカスタムExpertを作成可能
    • 例: 研究レポートの自動作成、財務モデルの自動生成と検証
  • 現在10,000以上のExpertが構築されており、急速に増加中
  • MiniMax内部では全業務の30%をM2.5が自動実行し、
    • R&D、製品、営業、人事、財務など全部門で活用
    • 新規コミットコードの80%がM2.5生成コード

付録: 評価方法の要約

  • SWE-bench、Terminal Bench 2、VIBE-Pro、BrowseComp、Wide Search、RISE、GDPval-MM、MEWC、Finance Modelingなど多様な内部・外部ベンチマークを使用
  • すべてのテストは統一されたパイプライン複数回の反復実行の平均値で算出
  • 評価環境には8コアCPU、16GBメモリ、7200秒制限、標準ツールセットが含まれる

1件のコメント

 
GN⁺ 2026-02-13
Hacker Newsの意見
  • より良くて安いモデルがもっと増えてほしい
    競争が活発であるほど市場は健全になる
    ただしベンチマーク結果は慎重に見るべき
    MiniMax 2.1は悪くないが、「賢い」と言うのは難しい
    特にテスト通過のためにコードベースをいじる傾向がある
    実際、失敗したテストを成功したように見せかけてレポートを整えることもある
    Artificial Analysisの指標によると、MiniMax 2.1のコーディングスコアは33で、上位モデルとは大きな差がある

    • 自分も複数のLLMで似た問題を見た
      アルゴリズム問題を解かせると、解けないときにテストケースをハードコーディングしてしまう
      DeepSeekも一時期こういう動きをしていた
    • MiniMaxは使ったことがないが、GPT-5.2-Codexでも同じ問題を見た
      単純な型エラーを直さず、castやAnyを乱用して問題を覆い隠してしまう
      本当の修正ではなく型チェックを回避するやり方だった
    • MiniMax 2.1は自分のデータパース作業ではエラーが多すぎた
      その代わり、MiMo v2 Flashのほうが価格性能比はずっと良かった
  • Pelicanの画像はそれと分かるが完成度は低い
    特に自転車フレームのバーが欠けている
    関連画像

    • 前フォークがないほうがむしろ良いかもしれない
      たいていのモデルは操舵不能な前輪構造を作ってしまうが、今回はそれより正直な「未解決問題」の表示に見える
      まるでコードに「TODO」コメントを残した感じだ
      ペリカンの脚の長さを考えると、姿勢も意外と解剖学的に自然だ
    • ペリカンではなくタコが自転車に乗る絵を試してみると、ずっと難しいはず
  • MiniMax M2.1は自分が最も頻繁に使うモデルだ
    速くて安く、ツール呼び出し能力が優れている
    開発にはAntigravity + Claudeを使うが、ワークフローではMiniMaxを先に使う
    コード作業にはGLM、英語分析にはKimi K2.5を使っている
    まだself-hostingはしていないが、中国のOSSモデルを好んでいる
    将来的に自分でホスティングできる可能性があるからだ
    自分のopenclaw assistantもMiniMaxで動いており、速度・品質・コストのバランスが最も良い
    100 tokens/secで1時間回すと$1、50 tokens/secなら$0.30程度だ

    • こういうモデルが大手研究所の独占を牽制してくれるので良い
      APIで使っているのか、月額サブスクなのか気になる
      月額プランに速度制限やリセットがあるのかも知りたい
      自分もMM2.1が最も経済的で、K2.5が全体的に最も強いと感じている
    • あまりに安くて驚く
      OpenRouterですぐ探してみようと思う
  • ベンチマークが良すぎて疑わしく見える
    訓練方法は興味深いが、本当に革新的かは不確か
    自分はモデルの客観的特性と過去の経験を基準にベンチマークの信頼性を判断する
    たとえばKimi K2.5は実際にバランスが良く知的な印象なので、数値も信頼できる
    GLM 5は以前は誇張されたベンチマークを出していたが、今回はモデルサイズとアーキテクチャを大きく改善したため可能性はある
    一方でMiniMaxは常に脆弱でエラーループに陥りやすいモデルだった
    単純なJavaScriptコードもよく壊していたし、モデルサイズも小さすぎるので今回の性能主張は信じがたい

  • M2はベンチマークスコアの水増しの代表例だった
    SWE-Bの結果と、実際の未訓練課題との乖離が大きかった
    2.5バージョンはbrokk.aiのパワーランキングに追加予定だ

  • うちの会社ではGithub CopilotでOpenAI、Anthropic、GoogleのLLMしか許可されていない
    そのせいでクレジットが1週間で尽きる
    もっと多様なLLMを使えるようになってほしい

  • M2.5をOpenCodeで簡単な作業に使ってみたが、結果はひどかった
    わずか250行の独立したスクリプトだったのに、Opus 4.6ならヒントだけで解決するレベルを、M2.5は細かいプロンプトなしではこなせなかった
    テストしたコードのリンク

  • 興味深いのは、中堅規模(Tier-2)の企業が競争モデルをほとんど出していないことだ
    結局はビッグ4研究所と中国研究所の対決構図になっている

    • それでもMistralは例外と見ていい
  • 言語別LLMが一般的なコンピュータでも動くと良いと思う
    たとえばPython 3+と特定のフレームワーク、コードリポジトリだけを学習したモデルのようなものだ
    こうすればインターネット検索用モデルと分離してコスト削減もできそうだ

    • こうしたdistillation方式は可能だろうが、多言語学習がLLMの性能に大きく役立っているとも思う
  • このモデルは1時間あたり$1とのことだが、自分が使っているClaude Codeの$200/月プランと同じくらいの水準だ
    実際には1日に3つほどを並列で回し、週60時間ほど使っている
    24時間365日で回し続ける用途があるなら面白いが、今のところはよく分からない
    そういう使い方をしている例があるのか気になる