MiMo-V2.5 — Xiaomiのオープンソース・オムニモデルAIモデル

(huggingface.co)

7 ポイント投稿者 xguru 23 시간 전 | まだコメントはありません。 | WhatsAppで共有

テキスト、画像、動画、音声を単一アーキテクチャで統合処理するネイティブ・オムニモーダルモデルで、エージェント作業に特化
MITライセンスで商用配布およびファインチューニングまで全て可能 - 別途許可は不要
Sparse MoE構造により、全310Bパラメータのうち15Bのみを活性化して効率的な推論が可能（Pro版は1.02T/42B）
Hybrid Attention（SWA + GA 比率5:1、ウィンドウ128）により、KV-cache保存量を約6分の1に削減しつつ最大1Mトークンのコンテキストをサポート
専用のビジョンエンコーダ（729MパラメータViT、ハイブリッド・ウィンドウ・アテンション）とオーディオエンコーダ（261Mパラメータ、MiMo-Audio-Tokenizerベース）を搭載
**Multi-Token Prediction(MTP)**モジュールの3層構成により、speculative decodingベースの推論高速化とRL訓練効率向上を実現
合計約48TトークンでFP8 mixed precision学習を行い、後処理段階で**SFT、大規模エージェントRL、Multi-Teacher On-Policy Distillation(MOPD)**を適用してエージェント・マルチモーダルベンチマーク性能を強化
- 5段階パイプライン（テキスト事前学習 → プロジェクタウォームアップ → マルチモーダル事前学習 → SFT/エージェント後処理 → RL/MOPD）
SGLang(FP8量子化、dp/tp並列) および vLLM公式デプロイをサポート
Base(256K) と Full(1M) の2つのバージョンを提供

MiMo-V2.5 — Xiaomiのオープンソース・オムニモデルAIモデル

関連記事

まだコメントはありません。