1 ポイント 投稿者 GN⁺ 2025-05-01 | 1件のコメント | WhatsAppで共有
  • MiMo-7Bは、言語モデルの推論ポテンシャルを最大限に引き出すために開発されたモデルシリーズ
  • 事前学習事後学習の戦略を通じて、数学およびコード推論タスクで優れた性能を発揮
  • MiMo-7Bは小型モデルでありながら、より大きなモデルと比較可能な性能を示す
  • オープンソースとして提供され、コミュニティに貢献できる可能性がある
  • RLインフラにより、学習および検証の速度を大幅に向上

I. 紹介

  • 多くの成功した強化学習(RL)研究は大規模モデルに依存しており、小型モデルで数学能力とコード能力を同時に向上させることは難しい
  • MiMo-7Bは推論タスクのためにゼロから学習されたモデルであり、より大きなモデルを上回る推論ポテンシャルを備えている
  • MiMo-7Bシリーズはオープンソースとして提供され、コミュニティが強力な推論言語モデルを開発するうえで貢献できる

🌟 主な内容

  • 事前学習: 推論のための基盤モデル

    • データ前処理パイプラインを最適化し、推論パターン密度を増加
    • 多様な合成推論データを生成するために複数の戦略を使用
    • マルチトークン予測を追加の学習目標として含め、モデル性能を向上
  • 事後学習レシピ: 先駆的な推論モデル

    • 130K件の数学およびコード問題をRL学習データとして使用
    • テスト難易度ベースのコード報酬を導入し、方策最適化を効果的に実行
    • 易しい問題に対するデータ再サンプリング戦略を実装し、方策更新を安定化
  • RLインフラ

    • Seamless Rollout Engineを開発し、RL学習および検証を高速化
    • vLLMでMTPをサポートし、RLシステムの推論エンジンの堅牢性を強化

II. モデル詳細

  • MiMo-7Bシリーズはさまざまなモデルチェックポイントを提供しており、HuggingFaceからダウンロード可能

III. 評価結果

  • MiMo-7B-RLは数学およびコード推論タスクで優れた性能を示す
  • さまざまなベンチマークで競争力のある結果を達成

IV. デプロイ

  • vLLMおよびHuggingFaceを通じた推論サポート
  • 推奨環境とプロンプトの使用により最適な性能を発揮できる

V. 引用

  • MiMo-7Bに関する引用情報を提供

VI. 連絡先

  • 問い合わせはmimo@xiaomi.com、またはGitHub Issueで受け付けている

1件のコメント

 
GN⁺ 2025-05-01
Hacker Newsの意見
  • 論文でのコードデータに対する強化学習(RL)段階の扱い方が興味深かった。ユニットテストを実行して解けるコード生成タスクで訓練している。他のモデルもこの訓練段階を行っているのか気になる

    • コードデータ: コーディング問題向けに、オープンソースのデータセットと新たに収集した問題セットを含む高品質な訓練セットをキュレーションした。テストケースのない問題は除外した。ゴールデンソリューションがある問題のうち、すべてのテストケースを通過できないものは除外した。ゴールデンソリューションがない問題は、高度な推論モデルによる16回のロールアウトで解けない場合に除外した。数学データと同様に、MiMo-7BのSFT版を使って、16回のロールアウトすべてで完全に解けた易しい問題をフィルタリングした。この厳格な整理プロセスによって、30,000件のコード問題が作られた
    • 各RL反復の間に数千件の問題を評価して報酬を計算する。各問題には数百件のテストケースが含まれることがある。報酬計算の効率を高め、GPUのアイドル時間をなくすために、非常に大量のユニットテストを並列実行できるオンラインジャッジ環境を開発した
  • 中国で英語優先のAIモデルが多いのはなぜなのか気になる。自国の人口に関心がないのか、それとも中国語優先モデルを発表すると西側で注目されないと考えているのか気になる

  • 7Bモデルのコーディング性能は非常に強力だ。Gemini Pro 2.5を使っていて67.8点を取っており、このモデルは57.8点で、Gemini 2.5 Flashの60.6点にかなり近い

    • llama4について聞いたことのせいで評価結果には懐疑的になったが、クローズド評価でどこに位置するのか見守りたい。とはいえ非常に印象的だ
  • MiMo-7BはQwen-32Bのようなより大きいモデルを上回り、OpenAI o1-miniと数学/コードベンチマークで同等の性能だと主張している。これは事前学習 + RLHF最適化がスケールを上回り始めた兆候なのか、それとも狭い機能のベンチマークを測るのがより上手くなっただけなのか気になる

  • O3のような最高性能モデルを省いたベンチマークを見るのは面白い。現時点で多くのベンチマークで最高のモデルだ。Gemini Pro/Claude 3.7もある

  • ollamaでggufファイルを使うとき、普通は新しいモデルと一緒に使うmodelfileを作るのか、それともデフォルトのollamaが新しいモデルで動くことを期待するのか気になる

  • READMEには単に「RL」とだけ書かれていて、どの種類のRLが使われているのか明記されていない。研究者たちへ: 忙しいのはわかるが、こういう詳細は省略しないでほしい

  • 少し試してみたが、全体的にかなり堅実だ。長い思考時間のせいで待ち時間もかなり長いが、最近のqwen moeのようなより大きいモデルよりさらに時間がかかる

    • moeのほうが全体的にはより良いトレードオフに見える
  • このモデルをXiaomi 15シリーズのスマートフォンのAIアシスタントとして使うのか気になる。おそらく使うだろう。何を期待すべきかはまだよくわからない

  • うわあ。素晴らしいベンチマークだ。このモデルと対話するのが楽しみだ

    • いくつか目立つ点がある。第一に、7Bモデルは25Tトークンで訓練されている(!)。これはMeta級の訓練規模だ。Llama 4 Maverickは約22Tで訓練されていた。(Scout、より小さいモデルは40T)
    • 第二に、他モデルから推論を得るための蒸留モデルやRLレイヤーではなく、最初から推論が組み込まれたRLモデルへ向かう興味深い経路だ。この方法なら、パラメータ当たりで大きな追加効率が得られるという主張だ
    • Xiaomiモデルの経験がないのでこのモデルについては慎重に見ているが、統計的には非常に有望なローカル推論モデルに見える