- Kimi K2.5 は、約15兆の視覚・テキストトークンで追加学習された マルチモーダルなオープンソースモデル で、コード作成とビジョン処理能力を統合
- 最大 100個のサブエージェント を並列制御する Agent Swarm 構造により、複雑な作業を 4.5倍 高速に実行
- Kimi Code および Kimi App と連携し、画像・動画ベースのコーディング、ビジュアルデバッグ、オフィス自動化など多様な 実務向け機能 を提供
- 内部ベンチマークでは コーディング・ビジョン・オフィス生産性 の全領域で K2 と比べて有意な性能向上を記録
- オープンソースコミュニティでは、AGI(汎用人工知能) に向かう実質的な前進を示すモデルとして評価されている
Kimi K2.5 の概要
- Kimi K2.5 は K2 モデルをベースに、約 15兆の混合視覚・テキストトークン で追加事前学習された ネイティブなマルチモーダルモデル
- コーディング と ビジョン 機能を統合し、自律型エージェントスウォーム(agent swarm) パラダイムを実装
- 最大 100個のサブエージェント が並列で最大 1,500回のツール呼び出し を実行し、単一エージェント比で 最大4.5倍高速な実行時間 を達成
- Kimi.com、Kimi App、API、Kimi Code を通じて提供され、Instant・Thinking・Agent・Agent Swarm(ベータ)モードをサポート
コーディングとビジョンの統合
- K2.5 は フロントエンド開発 に強みを持つオープンソースのコーディングモデルで、対話型インターフェースや スクロールトリガーアニメーション など複雑な UI を自動生成
- 画像・動画ベースの ビジュアルコーディング をサポートし、ユーザーが視覚的に意図を表現するとコードに変換
- 例として、動画から Web サイトを再構成したり、迷路画像で BFS アルゴリズム により最短経路(113,557ステップ)を探索
- 大規模なビジョン・テキスト共同学習により、視覚と言語の能力が同時に向上
- 内部 Kimi Code Bench では、ビルド・デバッグ・リファクタリング・テストなど多言語コーディング作業全般で K2 比の一貫した性能向上
- Kimi Code はターミナルおよび VSCode、Cursor、Zed などの IDE と統合され、画像・動画入力と 自動スキル移行 をサポート
Agent Swarm
- K2.5 Agent Swarm は単一エージェントの拡張ではなく 並列協調型アーキテクチャ で、Parallel-Agent Reinforcement Learning(PARL) により学習
- オーケストレーターエージェント が作業を並列化可能なサブタスクに分解し、固定されたサブエージェント が同時に実行
- 報酬関数 は初期の並列性探索を促し、徐々に タスク品質 Q(τ) 中心へ移行
- Critical Steps という遅延中心の指標を導入し、並列実行の効率性を評価
- 内部評価では エンドツーエンド実行時間を80%短縮 し、複雑な長期タスク処理能力が向上
- 例: 100の細分化分野における YouTube クリエイターを探す作業で、100個のサブエージェントを並列生成して結果を統合
オフィス生産性
- K2.5 Agent は 大規模なオフィス業務の自動化 を支援し、文書・スプレッドシート・PDF・スライド生成まで対話型で処理
- 内部 AI Office Benchmark と General Agent Benchmark では、それぞれ 59.3%、24.3% 向上
- Word への注釈追加、Pivot Table ベースの財務モデリング、PDF 内での LaTeX 数式作成など高度な作業を実行
- 10,000語の論文 や 100ページの文書 生成などの長文作業も数分で完了
結論
- Kimi K2.5 は ビジョンベースのコーディング、エージェントスウォーム、オフィス自動化 の3領域で進展を示し、現実世界の制約下における AGI へのアプローチ を実証
- 今後は エージェンティック・インテリジェンス(agentic intelligence) の拡張を通じて、知識労働の境界を再定義する計画
付録: 主なベンチマーク結果
- Reasoning、Vision、Coding、Agentic Search など7領域で GPT-5.2、Claude 4.5、Gemini 3 Pro などと比較
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- ほとんどのビジョン・コーディング・エージェンティック検索ベンチマークで 上位圏の性能 を記録
- すべての実験は 256k トークンコンテキスト、temperature=1.0、top-p=0.95 設定で実施
- Kimi Vendor Verifier(KVV) により、サードパーティサービスの精度検証が可能
1件のコメント
Hacker Newsの意見
Hugging FaceのKimi-K2.5ページを見ると、1兆パラメータのモデルとのこと
MITライセンスベースだが、月間アクティブユーザーが1億人以上、または売上が2,000万ドル以上の商用サービスでは、UIに「Kimi K2.5」と表示しなければならないという条件が追加されている
技術的には驚異的だが、どうせ家庭では動かせないものを無料公開した形なので、リスクも半分くらい減った感じがする
APIでagent swarmに言及していたが、それが重みまで公開されているのか知りたい
「Deepseek moment」はちょうど1年前だった
あの頃と比べると、今は本当に多くの技術が無料公開されていて、OpenAIのような閉鎖的アプローチとはまったく違う自由さを感じる
GLM 4.7 flash、Minimax-M2、Qwenシリーズまで含めると本当に多様だ
自分はOpenAIとAnthropicのサブスクを切って2年になるが、まったく惜しいと思わない
Redditでも妙に「pro-deepseek」なコメントが続いていた。ほとんどApple式マーケティングのようだった
中国企業が人類愛的な理由でこれを公開しているわけではないはずだ
複数モデルを比較できる便利なサイトが共有されている
Kimi K2.5は最大100個のサブエージェントを並列実行し、最大1,500回のツール呼び出しを並列処理する
単なるツール呼び出しではなく、エージェントオーケストレーション自体を強化学習(RL) で学習させている点が興味深い
普通はモデルが「call tool X」を出力し、IDEがそれを実行して結果を返す構造だ
自分はClaude CodeのTeammateToolで似たような効果を見ている
Moonshot AIはK2.5のほかに Kimi Code も公開した
従来のKimi CLIから発展したターミナルコーディングエージェントで、先月から使っているがかなり安定している
GitHub: MoonshotAI/kimi-cli
zsh hookがあり、どこからでもエージェントモードに切り替えられる
K2.5は自動でサブエージェントを生成し、swarmを構成するよう訓練されている点が興味深い
Claude Codeの動的サブエージェントに似ているが、はるかに多くのエージェントを自律的に扱える
Claudeも似た訓練をしているのか、次のバージョンで公開されるのか期待したい
最近の中国モデルはClaude Opusを基準にベンチマークを取っている
Qwen3 max thinkingもKimi K2.5もSonnetではなくOpusと比較している。ほぼ同じ速度で追いついてきている
Kimi K2は感情知能(emotional intelligence) が高いという評価が多かった
K2.5がその特性を引き継ぐのか気になる
CCP-benchのスコアがK2.5で大きく向上した
関連画像 を参照
Kimiチームの成果を祝いたい
ただ、なぜ今でもClaudeがコーディング分野で1位なのか気になる。コーディング特化の訓練によるものなのか、それとも全体的な学習品質によるものなのか知りたい
誰かがコーディングでOpus 4.5を打ち負かしてくれたらと思う
むしろモデルがベンチマークに過学習している場合もある
GPT5.2とOpus 4.5を両方使ったが、実際のコーディング性能はほぼ同じだった
しかもK2.5は価格が上位モデルの1/5程度なので期待している
Opusは不要な抽象化やハードコーディングをしがちだ