- MiniMax-M1 は 世界初のオープンウェイト大規模ハイブリッドアテンションベース推論モデル
- 4560億パラメータ規模のハイブリッド MoE 構造と Lightning Attention メカニズムにより、長大なコンテキスト処理に優れる
- RL ベース学習と CISPO アルゴリズム の導入により、多様な問題を効率よく解決可能
- ベンチマークでは既存の DeepSeek-R1、Qwen3-235B などと比べ、複雑な SW エンジニアリング、ツール利用、長文入力などで優れた性能を示す
- 多様な推論環境やサポートツール、API、チャットボットを提供し、次世代言語モデルエージェント の基盤としての活用価値が高い
MiniMax-M1 オープンソースプロジェクト概要
- MiniMax-M1 は 世界初のオープンウェイト大規模ハイブリッドアテンション推論モデル であり、既存の商用・オープンモデルと比べて強力な利点と実運用での有用性を示す
- 大規模ハイブリッド Mixture-of-Experts(MoE) 構造と Lightning Attention メカニズムを組み合わせ、長大なコンテキスト、複雑な推論、ソフトウェア環境の問題解決に最適化
- 長い文脈(最大 100 万トークン)を効率的にサポートし、テスト時の計算量(100K 基準で DeepSeek-R1 比 25% FLOPs)を大幅に削減
- 最新の RL 技術、新概念の CISPO アルゴリズム、ハイブリッドアテンション設計により、スケーラビリティと推論効率をともに最大化
1. モデル概要
- MiniMax-M1 は ハイブリッド Mixture-of-Experts(MoE) 構造 と Lightning Attention を搭載
- 前身である MiniMax-Text-01(4560 億パラメータ、トークンごとに 459 億パラメータを活性化)をベースに開発
- 100 万トークンのコンテキスト長 をサポート(DeepSeek R1 の 8 倍のコンテキストサイズ)
- Lightning Attention によりテスト時の計算量を大幅削減(DeepSeek R1 比 25%)
- 長い入力と複雑な推論が求められるタスクに適する
- 大規模 RL による数学的推論、実践的な SW エンジニアリングなど幅広い問題に対する学習を実施
- MiniMax-M1 独自の RL スケーリングフレームワークを提示
- CISPO 手法: 既存の RL 方式より優れた 重要度サンプリング重みクリッピングアルゴリズム を導入
- ハイブリッドアテンションを基盤に RL の効率性と拡張性を強化
- 40K、80K 思考バジェット の 2 種類のモデルとして学習・公開
- SW エンジニアリング、ツール利用、ロングコンテキスト作業などで既存の DeepSeek-R1 や Qwen3-235B などの高性能オープンモデルに比べ 卓越した性能 を示す
- 実運用上の課題解決に向けた次世代言語モデルエージェント構築の基盤を提供
2. 評価(Evaluation)
ベンチマーク結果の主要内容
- 数学、コード、SW エンジニアリング、長文コンテキスト分野 で SOTA 級の水準
- 他のオープンモデルと比べ全体的に高いスコアを達成し、特に ソフトウェアベンチ(SWE-bench) および ロングコンテキスト で差別化された競争力を持つ
- 注目に値する項目の例
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench、FullStackBench など SW 開発 relevant task で堅実さを示す
- 実行環境: temperature 1.0、top_p 0.95 で評価
- SWE-bench、TAU-bench などのベンチマークについて、独自の手順と設定(例: ファイル単位の二段階ローカライゼーション、embedding 不使用)に基づく評価を実施
3. MiniMax-M1 モデル利用ガイド
最適性能のための推奨設定
3.1. 推論パラメータ
- Temperature: 1.0
- Top_p: 0.95
この組み合わせは、テキストの多様性と論理的一貫性を同時に確保する環境を提供
3.2. システムプロンプト
- 一般業務: "You are a helpful assistant."
- Web 開発: UI 一体型コード生成など複雑な Web ページ作業のための特化プロンプトを提示
- 数学的推論: 段階的に解いた後、\boxed{} に最終回答を記入
4. デプロイガイド
5. 関数呼び出し(関数型インターフェース)
- MiniMax-M1 は関数呼び出し機能をサポート
6. Chatbot & API
1件のコメント
Hacker Newsのコメント
もしこれを動かすのに何が必要か気になるなら、8基のH200 141GBが必要で、価格は約25万ドルとのこと
githubでの議論 / eBayの商品価格情報
今週はMiniMaxの「ローンチウィーク」だと知られている
月曜日にM1、火曜日にHailuo 2を公開した
中国モデル関連のニュース
今週いっぱいこうした発表が続くかはまだ未定で、現時点では主にLLMと動画モデルで知られる会社
公式発表はMiniMaxのX(旧Twitter)で確認できる
また、MiniMax M1の技術レポートも有益
技術レポートPDF
SOTAのオープンウェイトモデルではないが、lightning attentionとGRPOの派生形(CISPO)について非常に興味深く大胆な主張をしている
(私はこの会社とは無関係で、ただ得た情報を共有しているだけ)
arXiv論文で「We publicly release MiniMax-M1 at this https url」という文を見て、本当に空のリポジトリではなく実質的なコード公開だったので、この会社が気に入った
私見
この分野について信頼できる専門家や興味深い議論をしている人がいれば紹介してほしい
近く香港証券取引所(HKEX)への上場も計画している
関連記事
公式ページには明記されていないが、MiniMaxは中国企業
Wikipedia参照
こういうモデル名はもう少しうまく付けてほしい
Mac Studioのプロセッサみたい
あの有名な古典AIアルゴリズムの名前から取ったもの
論文には「In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention」と書かれている
つまり、全体の87.5%はlinear attention、12.5%はfull attentionということ
実際のところ「linear attention」という用語は混乱を招く
softmax attentionは情報のルーティング方法で、トークンkを計算するときに1〜kから情報を受け取るが、サイズの決まったチャネルを通らなければならない
一方linear attentionには各layerに固定サイズの「レジスタバンク」があるだけ
本当のattentionというより、layer-at-once演算と互換性がある点以外は特に注目すべきものでもない
MiniMaxがIPO上場の観測を流しているという話がある
関連記事
これほどの規模を西側のクラウドインフラなしで訓練したなら、トークン処理の仕組みがどうなっているのか気になる
xcancel参照