Kimi 供應商驗證器
Kimi 開源了供應商驗證器(KVV),旨在幫助用户驗證開源模型推理實現的準確性。項目包含六項關鍵基準測試,用於檢測部署中的常見問題,並推動基礎設施提供商修復根本原因。
Kimi 近日宣佈開源 Kimi 供應商驗證器(KVV),這是一個旨在幫助用户驗證開源模型推理實現準確性的項目。伴隨着 Kimi K2.6 模型的發佈,KVV 的推出旨在解決開源模型生態中日益嚴重的問題:模型權重越開放,部署渠道越多樣,推理質量就越難控制。
KVV 的誕生源於實際社區反饋。自 K2 Thinking 模型發佈以來,團隊頻繁收到關於基準測試分數異常的反饋。調查發現,很大一部分問題源於解碼參數的使用不當。為此,Kimi 首先在 API 層面進行了強制約束,例如在思考模式下強制 Temperature=1.0 和 TopP=0.95,並確保思考內容正確傳遞。然而,更隱蔽的問題依然存在:在 LiveBenchmark 的一次評估中,第三方 API 與官方 API 結果出現顯著差異,經過大量測試,發現這種差異普遍存在。
為解決這一問題,Kimi 設計了 KVV,包含六項關鍵基準測試:預驗證(驗證 API 參數約束)、OCRBench(多模態管線快速測試)、MMMU Pro(視覺輸入預處理驗證)、AIME2025(長輸出壓力測試)、K2VV 工具調用(觸發一致性和 JSON 模式準確性度量)和 SWE-Bench(全代理編碼測試,因沙盒依賴未開源)。這些測試能夠暴露常見的部署問題,如 KV 緩存錯誤和量化退化,並在問題影響用户前進行干預。
KVV 不僅檢測問題,還推動上游修復。團隊已與 vLLM、SGLang、KTransformers 社區合作,從根源上解決問題。此外,Kimi 提供早期訪問權限,允許基礎設施提供商在用户遇到問題前驗證他們的堆棧,並計劃維護一個公開的供應商結果排行榜,鼓勵供應商優先保證準確性。
在測試成本方面,團隊在兩台配備 8 個 NVIDIA H20 GPU 的服務器上完成了完整評估流程驗證,順序執行約需 15 小時。腳本已針對長時間推理場景進行優化,包括流式推理、自動重試和檢查點恢復機制。
Kimi 表示,權重是開放的,正確運行它們的知識也必須開放。項目正在擴大供應商覆蓋範圍,並尋找更輕量的代理測試。有興趣的廠商可聯繫 [email protected]。