AI News HubLIVE
站内改写

最新开放制品(#21):开放模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。关于CAISI对V4的评估。

本月开放前沿实验室纷纷发布新模型,包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI评估指出开放模型落后于美国前沿,且差距在扩大,但评估方法受到质疑,实际能力差距可能被高估。文章还介绍了多个亮点模型。

文章情报

工程师入门

要点

  • DeepSeek、Google、Moonshot AI等发布多个开放模型。
  • CAISI评估显示开放模型与封闭模型的Elo差距巨大,但基准测试方法存在争议。
  • 专家对实际性能差距看法不一:Florian认为开放模型更接近,Nathan则认为封闭模型领先更多。
  • 亮点模型包括MiMo-V2.5-Pro、Gemma-4、Kimi-K2.6、Laguna-XS.2和DeepSeek-V4-Flash。

为什么重要

这条新闻值得关注,因为DeepSeek、Google、Moonshot AI等发布多个开放模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本月对开放模型领域而言是异常忙碌的一个月,几乎每个开放前沿实验室都发布了新模型,包括DeepSeek、Google、Moonshot AI、小米和智谱等。这些发布引发了广泛关注,同时也伴随着对开放模型能力的重新评估。

美国人工智能标准与创新中心(CAISI)对DeepSeek V4进行了评估,结果显示开放模型落后于美国前沿模型,且差距随时间推移不断扩大。CAISI使用基于项目反应理论(IRT)的Elo评分,结合九个不同基准测试。DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基准上得分较低,导致整体Elo差距较大。然而,这种评估方法受到批评,因为它使用了标准化的简单设置,而非实际工作流程(如Claude Code或OpenCode)进行评测。实际上,模型在训练时使用的是这些更强大的工具,因此基准测试可能无法完全反映真实能力。

作者内部也存在分歧。Florian认为开放模型在真实性能上更接近封闭模型,而Nathan则认为封闭模型领先更多。这种辩论将在未来内容中继续深入。

本月亮点模型包括:

  • **MiMo-V2.5-Pro(小米)**:自一年前首次发布以来,小米的开放模型进步显著。V2.5 Pro采用Apache 2.0许可,在基准测试和实际使用中与Kimi K2.6和GLM-5.1等旗舰模型不相上下。
  • **Gemma-4(Google)**:Google发布多个尺寸的Gemma系列更新,包括4B、9B、31B密集模型和26B-A4B MoE。关键变化是改用Apache 2.0许可,消除了自定义许可带来的法律不确定性。
  • **Kimi-K2.6(Moonshot AI)**:Kimi系列更新,全面提升性能,并专注于长周期任务,显示开放模型能够持续运行数小时完成复杂任务。
  • **Laguna-XS.2(Poolside)**:首个公开的编码专用开放权重模型,33B-A3B尺寸适合本地部署,性能与同类模型相当。其博客深入探讨了编码评估中的奖励黑客问题。
  • **DeepSeek-V4-Flash(DeepSeek)**:V3系列的继任者,提供Pro(1.6T-A49B MoE)和Flash(284B-13B)两个版本。Flash版本表现强劲,而Pro版相对其规模可能未达预期。技术报告详细介绍了架构改进。

此外,还有Qwen3.6-35B-A3B、LFM2.5-350M(可能是过度训练的典范)、Trinity-Large-Thinking(推理模型)和GLM-5.1(专注于长周期任务)等模型发布。