シャオミ MiMo 推論モデル
(github.com/XiaomiMiMo)- MiMo-7Bは、言語モデルの推論ポテンシャルを最大限に引き出すために開発されたモデルシリーズ
- 事前学習と事後学習の戦略を通じて、数学およびコード推論タスクで優れた性能を発揮
- MiMo-7Bは小型モデルでありながら、より大きなモデルと比較可能な性能を示す
- オープンソースとして提供され、コミュニティに貢献できる可能性がある
- RLインフラにより、学習および検証の速度を大幅に向上
I. 紹介
- 多くの成功した強化学習(RL)研究は大規模モデルに依存しており、小型モデルで数学能力とコード能力を同時に向上させることは難しい
- MiMo-7Bは推論タスクのためにゼロから学習されたモデルであり、より大きなモデルを上回る推論ポテンシャルを備えている
- MiMo-7Bシリーズはオープンソースとして提供され、コミュニティが強力な推論言語モデルを開発するうえで貢献できる
🌟 主な内容
-
事前学習: 推論のための基盤モデル
- データ前処理パイプラインを最適化し、推論パターン密度を増加
- 多様な合成推論データを生成するために複数の戦略を使用
- マルチトークン予測を追加の学習目標として含め、モデル性能を向上
-
事後学習レシピ: 先駆的な推論モデル
- 130K件の数学およびコード問題をRL学習データとして使用
- テスト難易度ベースのコード報酬を導入し、方策最適化を効果的に実行
- 易しい問題に対するデータ再サンプリング戦略を実装し、方策更新を安定化
-
RLインフラ
- Seamless Rollout Engineを開発し、RL学習および検証を高速化
- vLLMでMTPをサポートし、RLシステムの推論エンジンの堅牢性を強化
II. モデル詳細
- MiMo-7Bシリーズはさまざまなモデルチェックポイントを提供しており、HuggingFaceからダウンロード可能
III. 評価結果
- MiMo-7B-RLは数学およびコード推論タスクで優れた性能を示す
- さまざまなベンチマークで競争力のある結果を達成
IV. デプロイ
- vLLMおよびHuggingFaceを通じた推論サポート
- 推奨環境とプロンプトの使用により最適な性能を発揮できる
V. 引用
- MiMo-7Bに関する引用情報を提供
VI. 連絡先
- 問い合わせはmimo@xiaomi.com、またはGitHub Issueで受け付けている
1件のコメント
Hacker Newsの意見
論文でのコードデータに対する強化学習(RL)段階の扱い方が興味深かった。ユニットテストを実行して解けるコード生成タスクで訓練している。他のモデルもこの訓練段階を行っているのか気になる
中国で英語優先のAIモデルが多いのはなぜなのか気になる。自国の人口に関心がないのか、それとも中国語優先モデルを発表すると西側で注目されないと考えているのか気になる
7Bモデルのコーディング性能は非常に強力だ。Gemini Pro 2.5を使っていて67.8点を取っており、このモデルは57.8点で、Gemini 2.5 Flashの60.6点にかなり近い
MiMo-7BはQwen-32Bのようなより大きいモデルを上回り、OpenAI o1-miniと数学/コードベンチマークで同等の性能だと主張している。これは事前学習 + RLHF最適化がスケールを上回り始めた兆候なのか、それとも狭い機能のベンチマークを測るのがより上手くなっただけなのか気になる
O3のような最高性能モデルを省いたベンチマークを見るのは面白い。現時点で多くのベンチマークで最高のモデルだ。Gemini Pro/Claude 3.7もある
ollamaでggufファイルを使うとき、普通は新しいモデルと一緒に使うmodelfileを作るのか、それともデフォルトのollamaが新しいモデルで動くことを期待するのか気になる
READMEには単に「RL」とだけ書かれていて、どの種類のRLが使われているのか明記されていない。研究者たちへ: 忙しいのはわかるが、こういう詳細は省略しないでほしい
少し試してみたが、全体的にかなり堅実だ。長い思考時間のせいで待ち時間もかなり長いが、最近のqwen moeのようなより大きいモデルよりさらに時間がかかる
このモデルをXiaomi 15シリーズのスマートフォンのAIアシスタントとして使うのか気になる。おそらく使うだろう。何を期待すべきかはまだよくわからない
うわあ。素晴らしいベンチマークだ。このモデルと対話するのが楽しみだ