2026-05-17 01:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

最新开放制品（#21）：开放模型盛宴！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。关于CAISI对V4的评估。

本月开放前沿实验室纷纷发布新模型，包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI评估指出开放模型落后于美国前沿，且差距在扩大，但评估方法受到质疑，实际能力差距可能被高估。文章还介绍了多个亮点模型。

来源Interconnects (Nathan Lambert)作者: Florian Brand

本月对开放模型领域而言是异常忙碌的一个月，几乎每个开放前沿实验室都发布了新模型，包括DeepSeek、Google、Moonshot AI、小米和智谱等。这些发布引发了广泛关注，同时也伴随着对开放模型能力的重新评估。

美国人工智能标准与创新中心（CAISI）对DeepSeek V4进行了评估，结果显示开放模型落后于美国前沿模型，且差距随时间推移不断扩大。CAISI使用基于项目反应理论（IRT）的Elo评分，结合九个不同基准测试。DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基准上得分较低，导致整体Elo差距较大。然而，这种评估方法受到批评，因为它使用了标准化的简单设置，而非实际工作流程（如Claude Code或OpenCode）进行评测。实际上，模型在训练时使用的是这些更强大的工具，因此基准测试可能无法完全反映真实能力。

作者内部也存在分歧。Florian认为开放模型在真实性能上更接近封闭模型，而Nathan则认为封闭模型领先更多。这种辩论将在未来内容中继续深入。

本月亮点模型包括：

MiMo-V2.5-Pro（小米）：自一年前首次发布以来，小米的开放模型进步显著。V2.5 Pro采用Apache 2.0许可，在基准测试和实际使用中与Kimi K2.6和GLM-5.1等旗舰模型不相上下。
Gemma-4（Google）：Google发布多个尺寸的Gemma系列更新，包括4B、9B、31B密集模型和26B-A4B MoE。关键变化是改用Apache 2.0许可，消除了自定义许可带来的法律不确定性。
Kimi-K2.6（Moonshot AI）：Kimi系列更新，全面提升性能，并专注于长周期任务，显示开放模型能够持续运行数小时完成复杂任务。
Laguna-XS.2（Poolside）：首个公开的编码专用开放权重模型，33B-A3B尺寸适合本地部署，性能与同类模型相当。其博客深入探讨了编码评估中的奖励黑客问题。
DeepSeek-V4-Flash（DeepSeek）：V3系列的继任者，提供Pro（1.6T-A49B MoE）和Flash（284B-13B）两个版本。Flash版本表现强劲，而Pro版相对其规模可能未达预期。技术报告详细介绍了架构改进。

此外，还有Qwen3.6-35B-A3B、LFM2.5-350M（可能是过度训练的典范）、Trinity-Large-Thinking（推理模型）和GLM-5.1（专注于长周期任务）等模型发布。