7 ポイント 投稿者 xguru 2026-04-29 | 2件のコメント | WhatsAppで共有
  • テキスト、画像、動画、音声を単一アーキテクチャで統合処理するネイティブ・オムニモーダルモデルで、エージェント作業に特化
  • MITライセンスで商用配布やファインチューニングまでいずれも可能 - 別途許可は不要
  • Sparse MoE構造により、全310Bパラメータのうち15Bのみを活性化して効率的な推論が可能(Proバージョンは1.02T/42B
  • Hybrid Attention(SWA + GA 5:1比率、ウィンドウ128)により、KV-cacheの保存量を約6分の1に削減しつつ、最大1Mトークンのコンテキストをサポート
  • 専用ビジョンエンコーダ(729MパラメータViT、ハイブリッド・ウィンドウ・アテンション)とオーディオエンコーダ(261Mパラメータ、MiMo-Audio-Tokenizerベース)を搭載
  • **Multi-Token Prediction(MTP)**モジュール3層により、speculative decodingベースの推論高速化とRL学習効率の向上を実現
  • 合計約48TトークンでFP8 mixed precision学習を行い、後処理段階で**SFT、大規模エージェントRL、Multi-Teacher On-Policy Distillation(MOPD)**を適用して、エージェント・マルチモーダルベンチマーク性能を強化
    • 5段階パイプライン(テキスト事前学習 → プロジェクタのウォームアップ → マルチモーダル事前学習 → SFT/エージェント後処理 → RL/MOPD)
  • SGLang(FP8量子化、dp/tp並列)およびvLLM公式デプロイをサポート
  • Base(256K)Full(1M) の2バージョンを提供

2件のコメント

 
xguru 2026-04-29

これはVentureBeatがテストしていましたが、OpenClawにかなり適しているそうです
https://venturebeat.com/ai/…

  • ClawEvalベンチマークで、Proモデルはオープンソース分野の先頭に立つ63.8%の成功率を記録
  • Anthropic Claude Opus 4.6、Google Gemini 3.1 Pro、OpenAI GPT-5.4と比べて40〜60%少ないトークンで同等の結果を達成
  • MiMo-V2.5("Omni")はネイティブなマルチモーダル特化モデルで、視覚・聴覚・テキストを統合処理
  • MiMo-V2.5-Pro("Agent")は"長期一貫性(long-horizon coherence)"と複雑なソフトウェアエンジニアリングに特化
  • ProモデルはGDPVal-AA(Elo)ベンチマークで1581点を記録し、Kimi K2.6とGLM 5.1を上回る
  • 多くの"オープン"モデルが制限付きの"Acceptable Use"ポリシーを含むのとは異なり、MiMo-V2.5はMITライセンスで公開
    • 承認不要: Xiaomiの明示的な許可なしに商用配布が可能
    • 継続学習の自由: 独自データでファインチューニング後、派生ウェイトを公開可能
    • 無制限の商用利用: コミュニティライセンスでよくある収益上限やユーザー数制限なし
  • プロジェクトリーダーはFuli Luo(元DeepSeek中核メンバー)

    "モデルの価値は順位ではなく、解決する問題によって測られる"

 
cosine20 2026-05-01

シャオミという会社の主要事業分野を考えると、OpenClawやHermesのようなエージェントを意識して作られた可能性もありそうですね。