MiniMax-M1 オープンウェイトの大規模ハイブリッドアテンション推論モデル

(github.com/MiniMax-AI)

5 ポイント投稿者 GN⁺ 2025-06-19 | 1件のコメント | WhatsAppで共有

MiniMax-M1 は 世界初のオープンウェイト大規模ハイブリッドアテンションベース推論モデル
4560億パラメータ規模のハイブリッド MoE 構造と Lightning Attention メカニズムにより、長大なコンテキスト処理に優れる
RL ベース学習と CISPO アルゴリズム の導入により、多様な問題を効率よく解決可能
ベンチマークでは既存の DeepSeek-R1、Qwen3-235B などと比べ、複雑な SW エンジニアリング、ツール利用、長文入力などで優れた性能を示す
多様な推論環境やサポートツール、API、チャットボットを提供し、次世代言語モデルエージェント の基盤としての活用価値が高い

MiniMax-M1 オープンソースプロジェクト概要

MiniMax-M1 は 世界初のオープンウェイト大規模ハイブリッドアテンション推論モデル であり、既存の商用・オープンモデルと比べて強力な利点と実運用での有用性を示す
大規模ハイブリッド Mixture-of-Experts(MoE) 構造と Lightning Attention メカニズムを組み合わせ、長大なコンテキスト、複雑な推論、ソフトウェア環境の問題解決に最適化
長い文脈（最大 100 万トークン）を効率的にサポートし、テスト時の計算量（100K 基準で DeepSeek-R1 比 25% FLOPs）を大幅に削減
最新の RL 技術、新概念の CISPO アルゴリズム、ハイブリッドアテンション設計により、スケーラビリティと推論効率をともに最大化

1. モデル概要

MiniMax-M1 は ハイブリッド Mixture-of-Experts(MoE) 構造 と Lightning Attention を搭載
前身である MiniMax-Text-01（4560 億パラメータ、トークンごとに 459 億パラメータを活性化）をベースに開発
100 万トークンのコンテキスト長 をサポート（DeepSeek R1 の 8 倍のコンテキストサイズ）
Lightning Attention によりテスト時の計算量を大幅削減（DeepSeek R1 比 25%）
長い入力と複雑な推論が求められるタスクに適する
大規模 RL による数学的推論、実践的な SW エンジニアリングなど幅広い問題に対する学習を実施
MiniMax-M1 独自の RL スケーリングフレームワークを提示
- CISPO 手法: 既存の RL 方式より優れた 重要度サンプリング重みクリッピングアルゴリズム を導入
- ハイブリッドアテンションを基盤に RL の効率性と拡張性を強化
40K、80K 思考バジェット の 2 種類のモデルとして学習・公開
SW エンジニアリング、ツール利用、ロングコンテキスト作業などで既存の DeepSeek-R1 や Qwen3-235B などの高性能オープンモデルに比べ 卓越した性能 を示す
実運用上の課題解決に向けた次世代言語モデルエージェント構築の基盤を提供

2. 評価(Evaluation)

ベンチマーク結果の主要内容

数学、コード、SW エンジニアリング、長文コンテキスト分野 で SOTA 級の水準
他のオープンモデルと比べ全体的に高いスコアを達成し、特に ソフトウェアベンチ(SWE-bench) および ロングコンテキスト で差別化された競争力を持つ
注目に値する項目の例
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench、FullStackBench など SW 開発 relevant task で堅実さを示す
実行環境: temperature 1.0、top_p 0.95 で評価
SWE-bench、TAU-bench などのベンチマークについて、独自の手順と設定（例: ファイル単位の二段階ローカライゼーション、embedding 不使用）に基づく評価を実施

3. MiniMax-M1 モデル利用ガイド

最適性能のための推奨設定

3.1. 推論パラメータ

Temperature: 1.0
Top_p: 0.95
この組み合わせは、テキストの多様性と論理的一貫性を同時に確保する環境を提供

3.2. システムプロンプト

一般業務: "You are a helpful assistant."
Web 開発: UI 一体型コード生成など複雑な Web ページ作業のための特化プロンプトを提示
数学的推論: 段階的に解いた後、\boxed{} に最終回答を記入

4. デプロイガイド

HuggingFace で MiniMax-M1-40k、MiniMax-M1-80k モデルをダウンロード可能
実サービスでは vLLM ベースのデプロイを推奨
- 効率的なメモリ管理、優れたバッチ処理、性能最適化などにより大規模モデルサービングに適する
別途 Transformers ベースのデプロイにも対応

5. 関数呼び出し(関数型インターフェース)

MiniMax-M1 は関数呼び出し機能をサポート
- 外部関数が必要な場合、パラメータを構造化形式で自動出力
- 関数呼び出しガイドを提供

6. Chatbot & API

MiniMax Chatbot: オンライン検索まで含むチャットインターフェースを提供
API: 開発者向けオンライン API と MiniMax MCP Server など開発者活用ツールを提供
- AI ベースの動画・画像・音声合成、ボイスクローニングなどを含む

1件のコメント

GN⁺ 2025-06-19

Hacker Newsのコメント

もしこれを動かすのに何が必要か気になるなら、8基のH200 141GBが必要で、価格は約25万ドルとのこと
githubでの議論 / eBayの商品価格情報
- Mac Studio 512GBで動かせないか気になる、8,500ドルくらいなら十分
- 全量量子化の場合の話で、Q4やQ8で動かすなら1万ドル以下の機材でも動作可能
- このモデルのパラメータ数が気になる
今週はMiniMaxの「ローンチウィーク」だと知られている
月曜日にM1、火曜日にHailuo 2を公開した
中国モデル関連のニュース
今週いっぱいこうした発表が続くかはまだ未定で、現時点では主にLLMと動画モデルで知られる会社
公式発表はMiniMaxのX(旧Twitter)で確認できる
また、MiniMax M1の技術レポートも有益
技術レポートPDF
SOTAのオープンウェイトモデルではないが、lightning attentionとGRPOの派生形(CISPO)について非常に興味深く大胆な主張をしている
（私はこの会社とは無関係で、ただ得た情報を共有しているだけ）
- 月曜にM1、火曜にHailuo 2という流れなら、AppleチップみたいにM1、M1 Pro、M1 Ultraと名付けたら面白かったかもしれない
arXiv論文で「We publicly release MiniMax-M1 at this https url」という文を見て、本当に空のリポジトリではなく実質的なコード公開だったので、この会社が気に入った
私見
- LinkedIn上ではシンガポール拠点の会社に見え、良いLLMを作ることへの参入障壁はそれほど高くないように思える
- オープンウェイトモデルとStrix Halo / Ryzen AI Maxの進歩のおかげで、数年以内に良いLLMをローカルで安価に動かせるようになると楽観している
- 今後はローカルモデル実行が避けられない流れになりそうで、期待と懸念の両方がある
  この分野について信頼できる専門家や興味深い議論をしている人がいれば紹介してほしい
- LinkedInに書かれているのとは違って、実際には上海拠点の会社
- MiniMaxが約50万ドルの予算でモデルを訓練したというTwitter投稿を見た
  
  RL(強化学習)を534,700ドルで訓練
  どうやってこのコストで可能だったのか気になる
- この会社は実際に上海にある中国企業
  近く香港証券取引所(HKEX)への上場も計画している
  関連記事
公式ページには明記されていないが、MiniMaxは中国企業
Wikipedia参照
- 多くの人がMiniMaxを中国企業だと知っているのは、彼らの動画生成器の名前が「Hailuo」のように中国色が強く、それで今も知られているから
- わざわざ自社プロジェクトページに中国企業だと書く必要があるのかという疑問
こういうモデル名はもう少しうまく付けてほしい
Mac Studioのプロセッサみたい
- Minimaxアルゴリズムは知っている
  あの有名な古典AIアルゴリズムの名前から取ったもの
- あなたのMacは「Apple」が作っていて、実際にリンゴの品種名に由来する
- Maxという名前の、昔いなくなったうちの犬を思い出す。名前として本当にひどく、ほとんど犯罪的なくらいだと思う
論文には「In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention」と書かれている
つまり、全体の87.5%はlinear attention、12.5%はfull attentionということ
実際のところ「linear attention」という用語は混乱を招く
softmax attentionは情報のルーティング方法で、トークンkを計算するときに1〜kから情報を受け取るが、サイズの決まったチャネルを通らなければならない
一方linear attentionには各layerに固定サイズの「レジスタバンク」があるだけ
本当のattentionというより、layer-at-once演算と互換性がある点以外は特に注目すべきものでもない
MiniMaxがIPO上場の観測を流しているという話がある
関連記事
これほどの規模を西側のクラウドインフラなしで訓練したなら、トークン処理の仕組みがどうなっているのか気になる
- 512基のH800 GPUで3週間訓練し、約50万ドル規模とのこと
  xcancel参照
- スニーカーネット(sneakernet、物理移動方式)を使用

MiniMax-M1 オープンウェイトの大規模ハイブリッドアテンション推論モデル

MiniMax-M1 オープンソースプロジェクト概要

1. モデル概要

2. 評価(Evaluation)

ベンチマーク結果の主要内容

3. MiniMax-M1 モデル利用ガイド

最適性能のための推奨設定

3.1. 推論パラメータ

3.2. システムプロンプト

4. デプロイガイド

5. 関数呼び出し(関数型インターフェース)

6. Chatbot & API

関連記事

1件のコメント

Hacker Newsのコメント