Kimiベンダー検証器 - 推論プロバイダーの正確性を検証
(kimi.com)- Kimi Vendor Verifier(KVV)は、オープンソースモデルのデプロイ後に異なるインフラで発生する推論実装の差異を検証し、モデル自体の限界とエンジニアリング上の誤りを区別できるようにする公開ツール
- 公式API基準でOCRBench 91.0、AIME2025 avg@32 98.4、MMMU Pro Vision 78.8を提示し、各評価のTemperature、TopP、MaxTokens設定とK2VV評価結果ファイルもあわせて公開
- コミュニティで報告されたベンチマークの異常兆候を調査した結果、その多くがデコーディングパラメータの誤用に起因しており、ThinkingモードではTemperature 1.0とTopP 0.95の強制、およびコンテンツの再送検証を適用
- 検証手順は、パラメータ制約を確認する事前検証の後、OCRBench、MMMU Pro、AIME2025、K2VV ToolCall、SWE-Benchなどを使ってVision前処理、長文出力、ツール呼び出し、agentic codingまで点検する構成
- 全体ワークフローはNVIDIA H20 8-GPUサーバー2台での逐次実行基準で約15時間を要し、公開リーダーボードと早期アクセス提供を通じて正確性優先の検証の拡大を推進
信頼の連鎖(Chain of Trust)の再構築
- Kimi Vendor Verifier(KVV) のソース公開とともに、オープンソースモデル利用者が推論実装の正確性を検証できるよう設計された
- Kimi K2.6モデルの公開と同時に配布され、モデルを公開するだけでは不十分で、多様な環境で正しく動作するか確認するプロセスが必要
- オープンソースモデルのエコシステムでは、重みの公開とデプロイ経路の多様化が進むほど、品質を統制できる可能性が低下する構造が明らかになっている
- 利用者がモデル自体の性能上の欠陥とエンジニアリング実装の差異を区別できなければ、オープンソースエコシステムへの信頼が崩れる可能性がある
解決方法
-
個別の異常兆候から構造的な問題へ拡大
- K2 Thinking公開以降、コミュニティからベンチマークスコアの異常現象に関するフィードバックが頻繁に寄せられた
- 調査の結果、相当数の事例がデコーディングパラメータの誤用に起因することが確認された
- 即時の緩和策としてAPIレベルの一次防衛線を構築
- ThinkingモードでTemperature=1.0、TopP=0.95を強制
- thinkingコンテンツが正しく再送されるかの必須検証を適用
- 特定のLiveBenchmark評価では、サードパーティAPIと公式APIの間に大きな差が観測された
- 多様なインフラプロバイダーを広範にテストした結果、こうした差が広く存在することを確認
-
検証手順と運用
- 公式API基準のベンチマーク数値を公開
- OCRBench 正確度 91.0
- AIME2025 avg@32 98.4
- MMMU Pro Vision 正確度 78.8
- 評価設定値も明記
- 3項目すべてでTemperature 1.0、TopP 0.95を使用
- MaxTokensはOCRBench 16384、AIME2025 98304、MMMU Pro Vision 65536
- Kimi API K2VV評価結果ファイルのリンクを提供し、F1スコア算出用途であることを明示
- Pre-Verification 段階を運用
- temperature、top_pなどのAPIパラメータ制約が正しく強制されているかを検証
- すべてのテストに合格した場合のみベンチマーク評価を実施
- OCRBench を使用
- マルチモーダルパイプライン向けの5分間スモークテストとして機能
- MMMU Pro を使用
- 多様な視覚入力テストを通じてVision入力の前処理を検証
- AIME2025 を使用
- 長文出力ストレステストとして機能
- 短いベンチマークでは表面化しないKV cacheバグや量子化による性能低下を捕捉
- K2VV ToolCall を使用
- トリガー一貫性(F1)とJSON Schemaの正確性を測定
- エージェントでツールエラーが蓄積する前に早期検知
- SWE-Bench を使用
- 全体のagentic codingテストとして機能
- sandbox依存のためオープンソース化はしない
- vLLM、SGLang、KTransformersコミュニティと協力
- 症状検知にとどまらず根本原因の修正を志向
- デプロイ後に不満の報告を待つのではなく、インフラプロバイダーに早期アクセス権を提供
- 利用者が問題に遭遇する前に、各プロバイダーが自らのスタックを検証できるよう構成
- ベンダー結果に関する公開リーダーボードを継続運用する予定
- こうした透明性がベンダーの正確性の優先順位向上につながるよう設計
- 全評価ワークフローの検証が完了
- NVIDIA H20 8-GPUサーバー2台を使用
- 逐次実行基準で約15時間を要する
- 長時間推論シナリオに合わせてスクリプト最適化を適用
- ストリーミング推論
- 自動リトライ
- チェックポイント再開メカニズムを含む
- 重みが公開された以上、それを正しく実行する知識もまた公開されるべきだという原則を明示
- ベンダーカバレッジの拡大と、より軽量なagenticテストの探索を進行中
- 公式API基準のベンチマーク数値を公開
2件のコメント
本当にうまくいってほしいプロジェクトですね
Hacker Newsのコメント