3 ポイント 投稿者 GN⁺ 2026-01-28 | 1件のコメント | WhatsAppで共有
  • Kimi K2.5 は、約15兆の視覚・テキストトークンで追加学習された マルチモーダルなオープンソースモデル で、コード作成とビジョン処理能力を統合
  • 最大 100個のサブエージェント を並列制御する Agent Swarm 構造により、複雑な作業を 4.5倍 高速に実行
  • Kimi Code および Kimi App と連携し、画像・動画ベースのコーディング、ビジュアルデバッグ、オフィス自動化など多様な 実務向け機能 を提供
  • 内部ベンチマークでは コーディング・ビジョン・オフィス生産性 の全領域で K2 と比べて有意な性能向上を記録
  • オープンソースコミュニティでは、AGI(汎用人工知能) に向かう実質的な前進を示すモデルとして評価されている

Kimi K2.5 の概要

  • Kimi K2.5 は K2 モデルをベースに、約 15兆の混合視覚・テキストトークン で追加事前学習された ネイティブなマルチモーダルモデル
    • コーディングビジョン 機能を統合し、自律型エージェントスウォーム(agent swarm) パラダイムを実装
  • 最大 100個のサブエージェント が並列で最大 1,500回のツール呼び出し を実行し、単一エージェント比で 最大4.5倍高速な実行時間 を達成
  • Kimi.com、Kimi App、API、Kimi Code を通じて提供され、Instant・Thinking・Agent・Agent Swarm(ベータ)モードをサポート

コーディングとビジョンの統合

  • K2.5 は フロントエンド開発 に強みを持つオープンソースのコーディングモデルで、対話型インターフェースや スクロールトリガーアニメーション など複雑な UI を自動生成
  • 画像・動画ベースの ビジュアルコーディング をサポートし、ユーザーが視覚的に意図を表現するとコードに変換
    • 例として、動画から Web サイトを再構成したり、迷路画像で BFS アルゴリズム により最短経路(113,557ステップ)を探索
  • 大規模なビジョン・テキスト共同学習により、視覚と言語の能力が同時に向上
  • 内部 Kimi Code Bench では、ビルド・デバッグ・リファクタリング・テストなど多言語コーディング作業全般で K2 比の一貫した性能向上
  • Kimi Code はターミナルおよび VSCode、Cursor、Zed などの IDE と統合され、画像・動画入力と 自動スキル移行 をサポート

Agent Swarm

  • K2.5 Agent Swarm は単一エージェントの拡張ではなく 並列協調型アーキテクチャ で、Parallel-Agent Reinforcement Learning(PARL) により学習
    • オーケストレーターエージェント が作業を並列化可能なサブタスクに分解し、固定されたサブエージェント が同時に実行
  • 報酬関数 は初期の並列性探索を促し、徐々に タスク品質 Q(τ) 中心へ移行
  • Critical Steps という遅延中心の指標を導入し、並列実行の効率性を評価
  • 内部評価では エンドツーエンド実行時間を80%短縮 し、複雑な長期タスク処理能力が向上
    • 例: 100の細分化分野における YouTube クリエイターを探す作業で、100個のサブエージェントを並列生成して結果を統合

オフィス生産性

  • K2.5 Agent は 大規模なオフィス業務の自動化 を支援し、文書・スプレッドシート・PDF・スライド生成まで対話型で処理
  • 内部 AI Office BenchmarkGeneral Agent Benchmark では、それぞれ 59.3%24.3% 向上
  • Word への注釈追加、Pivot Table ベースの財務モデリング、PDF 内での LaTeX 数式作成など高度な作業を実行
  • 10,000語の論文100ページの文書 生成などの長文作業も数分で完了

結論

  • Kimi K2.5 は ビジョンベースのコーディングエージェントスウォームオフィス自動化 の3領域で進展を示し、現実世界の制約下における AGI へのアプローチ を実証
  • 今後は エージェンティック・インテリジェンス(agentic intelligence) の拡張を通じて、知識労働の境界を再定義する計画

付録: 主なベンチマーク結果

  • Reasoning、Vision、Coding、Agentic Search など7領域で GPT-5.2、Claude 4.5、Gemini 3 Pro などと比較
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • ほとんどのビジョン・コーディング・エージェンティック検索ベンチマークで 上位圏の性能 を記録
  • すべての実験は 256k トークンコンテキスト、temperature=1.0、top-p=0.95 設定で実施
  • Kimi Vendor Verifier(KVV) により、サードパーティサービスの精度検証が可能

1件のコメント

 
GN⁺ 2026-01-28
Hacker Newsの意見
  • Hugging FaceのKimi-K2.5ページを見ると、1兆パラメータのモデルとのこと
    MITライセンスベースだが、月間アクティブユーザーが1億人以上、または売上が2,000万ドル以上の商用サービスでは、UIに「Kimi K2.5」と表示しなければならないという条件が追加されている

    • 1兆とは、int4基準でもVRAMが0.5テラバイトくらい必要になりそう
      技術的には驚異的だが、どうせ家庭では動かせないものを無料公開した形なので、リスクも半分くらい減った感じがする
    • Cursor開発陣がComposerモデルがGLMベースであることを隠そうとしていたが、これはかなり気まずい知らせになりそう
    • Kimi K2.5のthinking、instruct、agent、agent swarm(beta)が全部オープンソースなのか気になる
      APIでagent swarmに言及していたが、それが重みまで公開されているのか知りたい
    • 「売上が2,000万ドル以上ならUIにKimi K2.5を表示しろ」という条項を見ると、むしろ「100万ドル払え」と言ったほうがよくないかと思う
  • Deepseek moment」はちょうど1年前だった
    あの頃と比べると、今は本当に多くの技術が無料公開されていて、OpenAIのような閉鎖的アプローチとはまったく違う自由さを感じる

    • DeepSeekR1以降も、v3-0324、v3.1、v3.1-terminus、v3.2-specialeなど、中国系モデルの進化速度には驚かされる
      GLM 4.7 flash、Minimax-M2、Qwenシリーズまで含めると本当に多様だ
      自分はOpenAIとAnthropicのサブスクを切って2年になるが、まったく惜しいと思わない
    • 偶然ではない。中国企業は春節前に大規模リリースをよく行うので、2月17日までにもさらに出てくる可能性が高い
    • これほど巨大なモデルを無料公開する理由が気になる。ビジネスモデルが何なのか疑問に思う
    • Deepseekは実際にはマーケティング主導のプロジェクトだったと思う
      Redditでも妙に「pro-deepseek」なコメントが続いていた。ほとんどApple式マーケティングのようだった
    • ただ、こうしたモデルはセキュリティ攻撃や生物学的攻撃にも悪用されうる
      中国企業が人類愛的な理由でこれを公開しているわけではないはずだ
  • 複数モデルを比較できる便利なサイトが共有されている

  • Kimi K2.5は最大100個のサブエージェントを並列実行し、最大1,500回のツール呼び出しを並列処理する
    単なるツール呼び出しではなく、エージェントオーケストレーション自体を強化学習(RL) で学習させている点が興味深い

    • ただし1,500回のツール呼び出しはコスト構造の悪夢だ。数十段階に達しただけでもマージンが崩れるので、VC資金なしでは持続不可能に見える
    • 「self-direct an agent swarm」がモデル内部機能なのか、それともIDE/サービスレベルで実装されたものなのか気になる
      普通はモデルが「call tool X」を出力し、IDEがそれを実行して結果を返す構造だ
    • 並列エージェントは単純だが強力なトリックだ
      自分はClaude CodeのTeammateToolで似たような効果を見ている
  • Moonshot AIはK2.5のほかに Kimi Code も公開した
    従来のKimi CLIから発展したターミナルコーディングエージェントで、先月から使っているがかなり安定している
    GitHub: MoonshotAI/kimi-cli

    • 単なるコーディングエージェントではなく、シェル(shell) の役割も果たす
      zsh hookがあり、どこからでもエージェントモードに切り替えられる
    • swarm機能をサポートしているのか、そしてOpencodeにも対応しているのか気になる
    • CCと比べて性能がどうなのかも知りたい
  • K2.5は自動でサブエージェントを生成し、swarmを構成するよう訓練されている点が興味深い
    Claude Codeの動的サブエージェントに似ているが、はるかに多くのエージェントを自律的に扱える
    Claudeも似た訓練をしているのか、次のバージョンで公開されるのか期待したい

  • 最近の中国モデルはClaude Opusを基準にベンチマークを取っている
    Qwen3 max thinkingもKimi K2.5もSonnetではなくOpusと比較している。ほぼ同じ速度で追いついてきている

    • clocks.brianmoore.comでは、K2が時計テストを完璧に通過した数少ないモデルの1つだ
    • 中国の研究所は西側のSOTAモデルを蒸留(distill) して数か月で追いつくパターンだ
    • ベンチマーク上では近いが、実際の使い勝手ではAnthropicモデルが依然として先行している
    • 結局は実際の利用シナリオのほうが重要だ。ベンチスコアだけでは判断しにくい
  • Kimi K2は感情知能(emotional intelligence) が高いという評価が多かった
    K2.5がその特性を引き継ぐのか気になる

    • 自分も同じ印象を持った。どうやってああした感情的反応を実現しているのか本当に気になる
    • mafia-arena.comでテストしてみる予定だ
    • 主観的ではあるが、Gemini 3、GPT 5.2、Opus 4.5より人間らしい感じがあった
  • CCP-benchのスコアがK2.5で大きく向上した
    関連画像 を参照

  • Kimiチームの成果を祝いたい
    ただ、なぜ今でもClaudeがコーディング分野で1位なのか気になる。コーディング特化の訓練によるものなのか、それとも全体的な学習品質によるものなのか知りたい
    誰かがコーディングでOpus 4.5を打ち負かしてくれたらと思う

    • ベンチマーク差はほとんど意味がない。実際のコーディング環境のノイズのほうがはるかに大きい
      むしろモデルがベンチマークに過学習している場合もある
      GPT5.2とOpus 4.5を両方使ったが、実際のコーディング性能はほぼ同じだった
      しかもK2.5は価格が上位モデルの1/5程度なので期待している
    • 自分はOpusの代わりにGemini Proを使っているが、コード構造を再設計して要件をよりうまく反映してくれる
      Opusは不要な抽象化やハードコーディングをしがちだ
    • Gemini 3 Proは特に大規模コードベースでずっと優秀だ
    • Opus 4.5は2か月前に出たモデルで、Anthropicがコーディング性能に特に注力してきた成果だ