GLM-5.2:开放代理的阶跃性变革
GLM-5.2 是 Z.ai 发布的最新开放权重模型,被广泛视为开放模型领域的一次重大突破。该模型在编码和代理任务上表现出色,性能可与 Anthropic 和 OpenAI 的顶尖模型相媲美,甚至在某些基准测试中超越了它们。其发布恰逢美国对 Claude Fable 实施出口限制,引发了关于开放模型与封闭模型未来格局的讨论。
几周前,当 AI 世界仍因 Claude Fable 5 的出口限制和实际禁令而震惊时,Z.ai 发布了其最新模型 GLM-5.2。该模型于 6 月 13 日周六异常地向 GLM 编码计划成员推出,这通常意味着某种不寻常的原因。Z.ai 似乎是想利用 Anthropic 在 AI 研究人员中实施静默保障措施所引发的“反开放科学”情绪。
GLM-5.2 的命名看似增量更新,但实际上它代表了开放模型能力的一次阶跃性变化。在社区基准测试中,GLM-5.2 在 Arena 的代理排行榜上成为唯一能与 OpenAI 和 Anthropic 最新模型竞争的开放模型,甚至在设计方面击败了 Claude Fable 本身。
大多数受人尊敬的 AI 评论家和研究人员在亲自使用后都称赞该模型。这种社区讨论的焦点在开放模型发布中只出现过一次——DeepSeek R1。GLM-5.2 的进步更像是一条单向门,推动 AI 的进步。Anthropic 凭借 Claude Code 实现了创纪录的收入增长率,而 GLM-5.2 是第一个提供可信替代方案的开放模型。
关键点在于,GLM-5.2 是第一个在编码框架中感觉正确的开放权重模型。作者亲自测试后认为,模型能力立即就绪,尽管存在一些小的瑕疵,比如 Claude Code 尝试向模型发送图像会破坏 Fireworks API。
这一发布将产生广泛影响。首先,它验证了开放模型追赶封闭模型的时间差约为 6-9 个月的观点。随着美国实验室大幅增加计算量,原本预计性能差距会扩大,但 GLM-5.2 的出现打破了这一预期。这给 Anthropic 等封闭实验室带来了定价压力,并推动了开放模型推理提供商的发展。
更深远的影响在于监管和控制。GLM-5.2 的发布将被永久地与 Claude Fable 和 Claude Mythos 关联起来。当前,美国政府认为 Mythos 级模型能力不安全,而中国模型制造商却在推进对所有人可用开放能力的开发。如果开放模型被禁止,而只有封闭模型在两年内获得 10 倍或 100 倍的性能提升,我们将面临更大的问题。
需要更多人来设想并向决策者传达如何管理日益强大的开放模型。随着英伟达下一代芯片已投产和算法不断进步,AI 进步的道路还很漫长。开放模型倡导者需要找到一条狭窄的路径,以确保性能的巨大飞跃不仅仅属于封闭模型。