开放模型已跨越门槛
像GLM-5和MiniMax M2.7这样的开放权重模型在核心智能体任务(文件操作、工具使用、指令遵循)上已媲美封闭前沿模型,同时成本更低、延迟更短。LangChain的评估显示其正确率接近顶级闭源模型,使开放模型适用于生产环境。本文详细介绍评估方法、结果及如何在Deep Agents SDK中使用开放模型。
文章情报
要点
- 开放模型GLM-5和MiniMax M2.7在智能体任务上追平闭源模型。
- 成本和延迟优势:价格低至闭源模型的1/20,推理速度更快。
- Deep Agents SDK只需一行代码即可切换至开放模型。
- 评估涵盖7个类别,包括正确率和求解率等指标。
为什么重要
这条新闻值得关注,因为开放模型GLM-5和MiniMax M2.7在智能体任务上追平闭源模型。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
过去几周,LangChain团队对多个开放权重大语言模型进行了Deep Agents harness评估,初步结果显示,开放模型在核心智能体任务上已成为闭源前沿模型的可行替代方案。GLM-5(z.ai)和MiniMax M2.7在文件操作、工具使用和指令遵循等任务上取得了与Claude Opus、GPT-5.4等闭源模型相近的得分。
开放模型的优势首先体现在成本上。以定价为例,闭源模型如Claude Opus 4.6每百万输出token收费25美元,而MiniMax M2.7仅收1.2美元。对于每天处理1000万token的应用程序,年成本差异可达8.7万美元。此外,开放模型通常比闭源模型更小,可以在专用推理基础设施上加速。例如,Baseten上的GLM-5平均延迟仅0.65秒,而Claude Opus 4.6为2.56秒,差距显著。
评估方法覆盖7个类别:文件操作、工具使用、检索、对话、记忆、摘要和单元测试。每个测试用例定义了成功断言(硬性检查)和效率断言(软性检查)。报告四项指标:正确率(通过测试比例)、求解率(结合正确性和速度)、步数比(实际步数与预期步数之比)和工具调用比。结果显示,GLM-5的正确率为0.64,与Claude Opus 4.6的0.68和GPT-5.4的0.61相当。在文件操作和单元测试类别中,开放模型甚至获得满分。
在Deep Agents SDK中切换到开放模型只需一行代码。例如,使用GLM-5只需将model参数设为'baseten:zai-org/GLM-5'。SDK会自动检测上下文窗口、禁用不支持的模态,并注入正确的模型身份。此外,Deep Agents CLI支持运行时模型切换,允许在会话中从前沿模型切换到开放模型。未来,LangChain团队计划记录特定模型族的调优模式,并测试多模型子智能体配置,如使用闭源模型作为编排器、开放模型作为子智能体。
开放模型已为智能体应用做好准备。开发者可以在GitHub上运行自己的评估,并参与构建更好的智能体。