- Moonshot AIが公開したKimi K2.5は、テキストとビジョンを同時に最適化したオープンソースのマルチモーダルエージェントモデルであり、単一モデルで推論・コーディング・ビジョン・エージェント作業全般を包括的に処理
- 既存の逐次的エージェントの限界を超えるため、Agent Swarm 並列エージェントオーケストレーションを導入し、複雑な作業を同時に分解・実行
- 画像・動画・文書・Web・OS環境まで含む広範なベンチマーク評価で、商用・オープンソースモデルとの比較性能を提示
- 視覚強化学習がテキスト推論性能まで改善するクロスモーダル転移効果を実験的に確認
- 学習済みチェックポイントを公開し、汎用エージェントシステム研究と実利用拡張を目標とする
概要と問題意識
- 大規模言語モデルは単純な質疑応答を超えて、ツール利用と長期計画を実行するエージェント知能へと進化中
- 既存のマルチモーダルモデルはテキスト中心設計にビジョンを付け足す方式が多く、モダリティ間の衝突と汎化の限界が存在
- 複雑な実世界タスクでは、逐次的エージェント実行による遅延とコンテキストの限界が主要なボトルネックとして作用
Kimi K2.5 の中核設計
- テキスト–ビジョン共同事前学習により、学習初期から2つのモダリティを一定比率で混合してアラインメントを強化
- MoonViT-3D ビジョンエンコーダを使用し、元解像度画像と長時間動画を同一構造で処理
- ビジョン専用SFTなしでも性能が活性化されるzero-vision SFT 戦略を採用
- 能力単位で構成された共同マルチモーダル強化学習により、知識・推論・コーディング・エージェント能力を同時に改善
Agent Swarm アーキテクチャ
- 中央オーケストレーターが作業を並列化可能なサブ問題へ分解し、専門サブエージェントを動的に生成
- 各サブエージェントは独立したローカルコンテキストで作業し、グローバルコンテキストの汚染を防止
- 全履歴ではなく要約結果のみを選択的にマージして、コンテキストシャーディングを実装
- 並列実行を促す学習プロンプトとCritical Steps 指標によって遅延最小化を学習
学習構成と規模
- ベースモデル Kimi K2 は、1兆パラメータのMoE構造で15兆トークンのテキストにより事前学習
- Joint long-context 学習により、最大256kのコンテキスト長をサポート
- 画像・動画・OCR・文書・OSスクリーンショットなど、多様なマルチモーダルデータを含む
評価と性能: 主要モデル比較を中心とした整理
- Kimi K2.5 は、商用モデル(Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) と オープンソースモデル(DeepSeek-V3.2, Qwen3-VL-235B) を含む同条件での比較評価を実施
- すべての評価は temperature 1.0、top-p 0.95、最大256kコンテキスト長設定で実施
-
推論・一般知識ベンチマーク
- AIME 2025で、Kimi K2.5 は96.1を記録し、Claude Opus 4.5(92.8)とGemini 3 Pro(95.0)を上回り、GPT-5.2(100)に近い性能を記録
- HMMT 2025とIMO-AnswerBenchでも、Claude Opus 4.5およびQwen3-VL比で高いスコアを維持
- GPQA-Diamondでは87.6でClaude Opus 4.5(87.0)と同程度、オープンソースモデルより優れた性能を確認
- LongBench v2ではGemini 3 Proが最高スコアを記録したが、Kimi K2.5 はDeepSeek-V3.2とQwen3-VLに対して競争力のある結果を提示
-
コーディングとソフトウェアエンジニアリング
- SWE-Bench Verifiedで、Kimi K2.5 は76.8とDeepSeek-V3.2(76.2)に近く、Qwen3-VL(73.1)を上回る
- SWE-Bench ProとMultilingualでも、商用モデルには及ばないものの、オープンソース基準では上位圏の性能を維持
- LiveCodeBench v6では85.0で、Claude Opus 4.5(82.2)およびQwen3-VL(83.3)より高いスコアを記録
- PaperBench(CodeDev) と CyberGymでは商用モデルが依然優勢だが、Kimi K2.5 は実利用可能な水準の安定した性能を示す
-
エージェントおよび検索ベースのタスク
- BrowseCompでは、単一エージェント基準で60.6とClaude Opus 4.5(37.0)を大きく上回る
- Agent Swarm 適用時には BrowseComp 78.4、WideSearch 79.0で、単一エージェント比で明確な性能向上を確認
- WideSearchではClaude Opus 4.5が単一エージェント基準でより高いスコアを示したが、並列エージェント構成では Kimi K2.5 が優勢
- DeepSearchQA、FinSearchComp 系列でも商用モデルに近い水準の結果を記録
-
視覚・文書・動画理解
- MMMU-Pro, OCRBench, OmniDocBench 1.5 などでQwen3-VLと直接比較され、全体としてビジョン推論と文書理解で競争力を維持
- GPT-5.2 は一部の視覚評価で**出力失敗率約10%**が発生し、保守的に採点
- 長短編動画ベンチマークで、Kimi K2.5 は一貫した性能を示し、単一画像中心モデルより安定した結果を確認
-
総合評価
- Kimi K2.5 は商用の最高性能モデルには一部指標で及ばないものの、オープンソースのマルチモーダル・エージェントモデルの中では最も幅広くバランスの取れた性能を示す
- 特にAgent Swarm 適用時、エージェント・検索型タスクで明確な優位が表れる
- 推論・コーディング・ビジョン・エージェントを単一のオープンモデルで包括する点で、実験用ではなく実際に使える汎用エージェントモデル
限界と観察
- 一部の商用モデルは視覚ベンチマークで出力失敗率が発生し、保守的なスコアとして処理
- 長いエージェントタスクでは、コンテキスト管理戦略によって性能差が大きく現れる
- 一部の高コストベンチマークは API 安定性の問題により評価から除外
公開と活用
- Kimi K2.5 のポストトレーニング済みチェックポイントをオープンソースで公開
- 汎用エージェントシステム、マルチモーダル研究、実際の自動化ワークロードに再利用可能なベースモデル
- テキストとビジョンを分離しないアプローチと並列エージェント構造が、General Agentic Intelligence への実質的な経路となり得る
まだコメントはありません。