7 ポイント 投稿者 xguru 23 시간 전 | まだコメントはありません。 | WhatsAppで共有
  • テキスト、画像、動画、音声を単一アーキテクチャで統合処理するネイティブ・オムニモーダルモデルで、エージェント作業に特化
  • MITライセンスで商用配布およびファインチューニングまで全て可能 - 別途許可は不要
  • Sparse MoE構造により、全310Bパラメータのうち15Bのみを活性化して効率的な推論が可能(Pro版は1.02T/42B
  • Hybrid Attention(SWA + GA 比率5:1、ウィンドウ128)により、KV-cache保存量を約6分の1に削減しつつ最大1Mトークンのコンテキストをサポート
  • 専用のビジョンエンコーダ(729MパラメータViT、ハイブリッド・ウィンドウ・アテンション)とオーディオエンコーダ(261Mパラメータ、MiMo-Audio-Tokenizerベース)を搭載
  • **Multi-Token Prediction(MTP)**モジュールの3層構成により、speculative decodingベースの推論高速化とRL訓練効率向上を実現
  • 合計約48TトークンでFP8 mixed precision学習を行い、後処理段階で**SFT、大規模エージェントRL、Multi-Teacher On-Policy Distillation(MOPD)**を適用してエージェント・マルチモーダルベンチマーク性能を強化
    • 5段階パイプライン(テキスト事前学習 → プロジェクタウォームアップ → マルチモーダル事前学習 → SFT/エージェント後処理 → RL/MOPD)
  • SGLang(FP8量子化、dp/tp並列) および vLLM公式デプロイ をサポート
  • Base(256K)Full(1M) の2つのバージョンを提供

まだコメントはありません。

まだコメントはありません。