Kimi 供应商验证器
Kimi 开源了供应商验证器(KVV),旨在帮助用户验证开源模型推理实现的准确性。项目包含六项关键基准测试,用于检测部署中的常见问题,并推动基础设施提供商修复根本原因。
Kimi 近日宣布开源 Kimi 供应商验证器(KVV),这是一个旨在帮助用户验证开源模型推理实现准确性的项目。伴随着 Kimi K2.6 模型的发布,KVV 的推出旨在解决开源模型生态中日益严重的问题:模型权重越开放,部署渠道越多样,推理质量就越难控制。
KVV 的诞生源于实际社区反馈。自 K2 Thinking 模型发布以来,团队频繁收到关于基准测试分数异常的反馈。调查发现,很大一部分问题源于解码参数的使用不当。为此,Kimi 首先在 API 层面进行了强制约束,例如在思考模式下强制 Temperature=1.0 和 TopP=0.95,并确保思考内容正确传递。然而,更隐蔽的问题依然存在:在 LiveBenchmark 的一次评估中,第三方 API 与官方 API 结果出现显著差异,经过大量测试,发现这种差异普遍存在。
为解决这一问题,Kimi 设计了 KVV,包含六项关键基准测试:预验证(验证 API 参数约束)、OCRBench(多模态管线快速测试)、MMMU Pro(视觉输入预处理验证)、AIME2025(长输出压力测试)、K2VV 工具调用(触发一致性和 JSON 模式准确性度量)和 SWE-Bench(全代理编码测试,因沙盒依赖未开源)。这些测试能够暴露常见的部署问题,如 KV 缓存错误和量化退化,并在问题影响用户前进行干预。
KVV 不仅检测问题,还推动上游修复。团队已与 vLLM、SGLang、KTransformers 社区合作,从根源上解决问题。此外,Kimi 提供早期访问权限,允许基础设施提供商在用户遇到问题前验证他们的堆栈,并计划维护一个公开的供应商结果排行榜,鼓励供应商优先保证准确性。
在测试成本方面,团队在两台配备 8 个 NVIDIA H20 GPU 的服务器上完成了完整评估流程验证,顺序执行约需 15 小时。脚本已针对长时间推理场景进行优化,包括流式推理、自动重试和检查点恢复机制。
Kimi 表示,权重是开放的,正确运行它们的知识也必须开放。项目正在扩大供应商覆盖范围,并寻找更轻量的代理测试。有兴趣的厂商可联系 [email protected]。