2026-05-06 07:40 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Kimi 供应商验证器

Kimi 开源了供应商验证器（KVV），旨在帮助用户验证开源模型推理实现的准确性。项目包含六项关键基准测试，用于检测部署中的常见问题，并推动基础设施提供商修复根本原因。

Kimi 近日宣布开源 Kimi 供应商验证器（KVV），这是一个旨在帮助用户验证开源模型推理实现准确性的项目。伴随着 Kimi K2.6 模型的发布，KVV 的推出旨在解决开源模型生态中日益严重的问题：模型权重越开放，部署渠道越多样，推理质量就越难控制。

KVV 的诞生源于实际社区反馈。自 K2 Thinking 模型发布以来，团队频繁收到关于基准测试分数异常的反馈。调查发现，很大一部分问题源于解码参数的使用不当。为此，Kimi 首先在 API 层面进行了强制约束，例如在思考模式下强制 Temperature=1.0 和 TopP=0.95，并确保思考内容正确传递。然而，更隐蔽的问题依然存在：在 LiveBenchmark 的一次评估中，第三方 API 与官方 API 结果出现显著差异，经过大量测试，发现这种差异普遍存在。

为解决这一问题，Kimi 设计了 KVV，包含六项关键基准测试：预验证（验证 API 参数约束）、OCRBench（多模态管线快速测试）、MMMU Pro（视觉输入预处理验证）、AIME2025（长输出压力测试）、K2VV 工具调用（触发一致性和 JSON 模式准确性度量）和 SWE-Bench（全代理编码测试，因沙盒依赖未开源）。这些测试能够暴露常见的部署问题，如 KV 缓存错误和量化退化，并在问题影响用户前进行干预。

KVV 不仅检测问题，还推动上游修复。团队已与 vLLM、SGLang、KTransformers 社区合作，从根源上解决问题。此外，Kimi 提供早期访问权限，允许基础设施提供商在用户遇到问题前验证他们的堆栈，并计划维护一个公开的供应商结果排行榜，鼓励供应商优先保证准确性。

在测试成本方面，团队在两台配备 8 个 NVIDIA H20 GPU 的服务器上完成了完整评估流程验证，顺序执行约需 15 小时。脚本已针对长时间推理场景进行优化，包括流式推理、自动重试和检查点恢复机制。

Kimi 表示，权重是开放的，正确运行它们的知识也必须开放。项目正在扩大供应商覆盖范围，并寻找更轻量的代理测试。有兴趣的厂商可联系 [email protected]。