2026-05-06 07:40 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Kimi 供應商驗證器

Kimi 開源了供應商驗證器（KVV），旨在幫助用户驗證開源模型推理實現的準確性。項目包含六項關鍵基準測試，用於檢測部署中的常見問題，並推動基礎設施提供商修復根本原因。

Kimi 近日宣佈開源 Kimi 供應商驗證器（KVV），這是一個旨在幫助用户驗證開源模型推理實現準確性的項目。伴隨着 Kimi K2.6 模型的發佈，KVV 的推出旨在解決開源模型生態中日益嚴重的問題：模型權重越開放，部署渠道越多樣，推理質量就越難控制。

KVV 的誕生源於實際社區反饋。自 K2 Thinking 模型發佈以來，團隊頻繁收到關於基準測試分數異常的反饋。調查發現，很大一部分問題源於解碼參數的使用不當。為此，Kimi 首先在 API 層面進行了強制約束，例如在思考模式下強制 Temperature=1.0 和 TopP=0.95，並確保思考內容正確傳遞。然而，更隱蔽的問題依然存在：在 LiveBenchmark 的一次評估中，第三方 API 與官方 API 結果出現顯著差異，經過大量測試，發現這種差異普遍存在。

為解決這一問題，Kimi 設計了 KVV，包含六項關鍵基準測試：預驗證（驗證 API 參數約束）、OCRBench（多模態管線快速測試）、MMMU Pro（視覺輸入預處理驗證）、AIME2025（長輸出壓力測試）、K2VV 工具調用（觸發一致性和 JSON 模式準確性度量）和 SWE-Bench（全代理編碼測試，因沙盒依賴未開源）。這些測試能夠暴露常見的部署問題，如 KV 緩存錯誤和量化退化，並在問題影響用户前進行干預。

KVV 不僅檢測問題，還推動上游修復。團隊已與 vLLM、SGLang、KTransformers 社區合作，從根源上解決問題。此外，Kimi 提供早期訪問權限，允許基礎設施提供商在用户遇到問題前驗證他們的堆棧，並計劃維護一個公開的供應商結果排行榜，鼓勵供應商優先保證準確性。

在測試成本方面，團隊在兩台配備 8 個 NVIDIA H20 GPU 的服務器上完成了完整評估流程驗證，順序執行約需 15 小時。腳本已針對長時間推理場景進行優化，包括流式推理、自動重試和檢查點恢復機制。

Kimi 表示，權重是開放的，正確運行它們的知識也必須開放。項目正在擴大供應商覆蓋範圍，並尋找更輕量的代理測試。有興趣的廠商可聯繫 [email protected]。