2026-05-04站内改写

开放模型已跨越门槛

像GLM-5和MiniMax M2.7这样的开放权重模型在核心智能体任务（文件操作、工具使用、指令遵循）上已媲美封闭前沿模型，同时成本更低、延迟更短。LangChain的评估显示其正确率接近顶级闭源模型，使开放模型适用于生产环境。本文详细介绍评估方法、结果及如何在Deep Agents SDK中使用开放模型。

文章情报

工程师进阶

要点

开放模型GLM-5和MiniMax M2.7在智能体任务上追平闭源模型。
成本和延迟优势：价格低至闭源模型的1/20，推理速度更快。
Deep Agents SDK只需一行代码即可切换至开放模型。
评估涵盖7个类别，包括正确率和求解率等指标。

为什么重要

这条新闻值得关注，因为开放模型GLM-5和MiniMax M2.7在智能体任务上追平闭源模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

过去几周，LangChain团队对多个开放权重大语言模型进行了Deep Agents harness评估，初步结果显示，开放模型在核心智能体任务上已成为闭源前沿模型的可行替代方案。GLM-5（z.ai）和MiniMax M2.7在文件操作、工具使用和指令遵循等任务上取得了与Claude Opus、GPT-5.4等闭源模型相近的得分。

开放模型的优势首先体现在成本上。以定价为例，闭源模型如Claude Opus 4.6每百万输出token收费25美元，而MiniMax M2.7仅收1.2美元。对于每天处理1000万token的应用程序，年成本差异可达8.7万美元。此外，开放模型通常比闭源模型更小，可以在专用推理基础设施上加速。例如，Baseten上的GLM-5平均延迟仅0.65秒，而Claude Opus 4.6为2.56秒，差距显著。

评估方法覆盖7个类别：文件操作、工具使用、检索、对话、记忆、摘要和单元测试。每个测试用例定义了成功断言（硬性检查）和效率断言（软性检查）。报告四项指标：正确率（通过测试比例）、求解率（结合正确性和速度）、步数比（实际步数与预期步数之比）和工具调用比。结果显示，GLM-5的正确率为0.64，与Claude Opus 4.6的0.68和GPT-5.4的0.61相当。在文件操作和单元测试类别中，开放模型甚至获得满分。

在Deep Agents SDK中切换到开放模型只需一行代码。例如，使用GLM-5只需将model参数设为'baseten:zai-org/GLM-5'。SDK会自动检测上下文窗口、禁用不支持的模态，并注入正确的模型身份。此外，Deep Agents CLI支持运行时模型切换，允许在会话中从前沿模型切换到开放模型。未来，LangChain团队计划记录特定模型族的调优模式，并测试多模型子智能体配置，如使用闭源模型作为编排器、开放模型作为子智能体。