2026-06-21 00:52 UTC+8站内改写2 分钟阅读更新: 2026-06-22 07:31 UTC+8

开源界的里程碑：GLM-5.2 在实际任务中超越 Opus 4.8

在一项专门设计用于抵御 AI 作弊的后端编程测试中，GLM-5.2 单次生成的代码质量显著优于 Opus 4.8。作者借此机会发布了 offmute-v2——一个融合语音转文字和多模态大语言模型的开源转录流水线，并详细分享了实验过程、技术细节和注意事项。

来源Hacker News AI作者: hrishi

近日，在一场针对 AI 辅助编程能力的测试中，GLM-5.2 模型展现出了惊人的实力。这场测试并非普通的代码挑战，而是一个特意设计成“AI 抵抗性”的后端编程作业，要求开发者将三个现有开源项目（offmute、meeting-diary 和 ipgu）的功能整合成一个统一的流水线。测试结果显示，GLM-5.2 仅通过一次尝试就生成了比 Opus 4.8 更高质量、更易维护的代码，其转录和说话人识别准确度也更为出色。

基于这一成功，作者正式发布了 offmute-v2，一个完全开源的新一代转录工具。它巧妙地将常规语音转文本（STT）模型与多模态大语言模型（LLM）结合起来，能够生成时间戳准确、带有说话人标记的转录文本，并且可以在任何环境下运行，甚至包括浏览器。offmute-v2 不仅比前代版本更精确、格式更优，而且成本更低，堪称“非氛围式”的工程成果。

测试的细节颇为有趣。作者为 GLM-5.2 和 Opus 4.8 提供了完全相同的提示文件、两个测试录音（一个嘈杂的讲座和一个多人播客），以及人工校验的转录样本。两个模型均在 Claude Code 环境下执行，以消除框架差异。结果显示，GLM 版本初次使用仅有一个可修复的缓存 bug，而 Opus 版本则存在音频文件兼容性问题。整体而言，GLM 的输出质量、代码风格和指令遵循程度都更胜一筹。

在技术层面，两个模型不约而同地采用了相同的核心策略：让多模态 LLM 负责内容（原文、语气、说话人切换），让 ASR 模型提供精准的时间戳，然后通过 Needleman-Wunsch 全局比对算法将两个输出融合。这是一个经典的动态规划方法，用于匹配两个序列，在这里就是视频文字流和声学文字流。有趣的是，Opus 的代码注释中声称使用了“Hirschberg-free 带状变体”来优化大规模输入，但实际代码并未实现该优化——注释与代码不符，这恰恰是只有人工审查才能发现的典型问题。

成本方面，GLM-5.2 共消耗约 2.09 亿个 token，而 Opus 4.8 消耗约 2.866 亿个，其中大部分是缓存读取。GLM 在 token 使用效率上略占优势。

作者强调，这项测试设计的初衷是奖励正确使用 AI 并惩罚滥用。如果开发者采取“氛围编码”（vibe-coding），即将大部分工作交给 AI 而不加审查，代码中很容易出现各种奇怪的漏洞，例如提示词被随意生成、依赖项混乱、处理测试数据过于简单等。offmute-v2 的成功正是建立在结构化数据和格式化的严格流程之上。

尽管 offmute-v2 表现亮眼，但并非完美无瑕。两个版本都暴露出一些初期 bug，例如 GLM 版本的缓存错误和不恰当的中转目录，以及 Opus 版本对视频格式的过分依赖。不过，这些问题均易于修复。作者认为，这仍然是一个里程碑式的时刻：前沿能力正在开源化，任何人都可以基于最先进的模型构建自己的工具。