MiMo-V2.5 — Xiaomiのオープンソース・オムニモデルAIモデル
(huggingface.co)- テキスト、画像、動画、音声を単一アーキテクチャで統合処理するネイティブ・オムニモーダルモデルで、エージェント作業に特化
- MITライセンスで商用配布やファインチューニングまでいずれも可能 - 別途許可は不要
- Sparse MoE構造により、全310Bパラメータのうち15Bのみを活性化して効率的な推論が可能(Proバージョンは1.02T/42B)
- Hybrid Attention(SWA + GA 5:1比率、ウィンドウ128)により、KV-cacheの保存量を約6分の1に削減しつつ、最大1Mトークンのコンテキストをサポート
- 専用ビジョンエンコーダ(729MパラメータViT、ハイブリッド・ウィンドウ・アテンション)とオーディオエンコーダ(261Mパラメータ、MiMo-Audio-Tokenizerベース)を搭載
- **Multi-Token Prediction(MTP)**モジュール3層により、speculative decodingベースの推論高速化とRL学習効率の向上を実現
- 合計約48TトークンでFP8 mixed precision学習を行い、後処理段階で**SFT、大規模エージェントRL、Multi-Teacher On-Policy Distillation(MOPD)**を適用して、エージェント・マルチモーダルベンチマーク性能を強化
- 5段階パイプライン(テキスト事前学習 → プロジェクタのウォームアップ → マルチモーダル事前学習 → SFT/エージェント後処理 → RL/MOPD)
- SGLang(FP8量子化、dp/tp並列)およびvLLM公式デプロイをサポート
- Base(256K) と Full(1M) の2バージョンを提供
2件のコメント
これはVentureBeatがテストしていましたが、OpenClawにかなり適しているそうです
https://venturebeat.com/ai/…
シャオミという会社の主要事業分野を考えると、OpenClawやHermesのようなエージェントを意識して作られた可能性もありそうですね。