AI News HubLIVE
站内改写2 分钟阅读

开源界的里程碑:GLM-5.2 在实际任务中超越 Opus 4.8

在一项专门设计用于抵御 AI 作弊的后端编程测试中,GLM-5.2 单次生成的代码质量显著优于 Opus 4.8。作者借此机会发布了 offmute-v2——一个融合语音转文字和多模态大语言模型的开源转录流水线,并详细分享了实验过程、技术细节和注意事项。

来源Hacker News AI作者: hrishi

近日,在一场针对 AI 辅助编程能力的测试中,GLM-5.2 模型展现出了惊人的实力。这场测试并非普通的代码挑战,而是一个特意设计成“AI 抵抗性”的后端编程作业,要求开发者将三个现有开源项目(offmute、meeting-diary 和 ipgu)的功能整合成一个统一的流水线。测试结果显示,GLM-5.2 仅通过一次尝试就生成了比 Opus 4.8 更高质量、更易维护的代码,其转录和说话人识别准确度也更为出色。

基于这一成功,作者正式发布了 offmute-v2,一个完全开源的新一代转录工具。它巧妙地将常规语音转文本(STT)模型与多模态大语言模型(LLM)结合起来,能够生成时间戳准确、带有说话人标记的转录文本,并且可以在任何环境下运行,甚至包括浏览器。offmute-v2 不仅比前代版本更精确、格式更优,而且成本更低,堪称“非氛围式”的工程成果。

测试的细节颇为有趣。作者为 GLM-5.2 和 Opus 4.8 提供了完全相同的提示文件、两个测试录音(一个嘈杂的讲座和一个多人播客),以及人工校验的转录样本。两个模型均在 Claude Code 环境下执行,以消除框架差异。结果显示,GLM 版本初次使用仅有一个可修复的缓存 bug,而 Opus 版本则存在音频文件兼容性问题。整体而言,GLM 的输出质量、代码风格和指令遵循程度都更胜一筹。

在技术层面,两个模型不约而同地采用了相同的核心策略:让多模态 LLM 负责内容(原文、语气、说话人切换),让 ASR 模型提供精准的时间戳,然后通过 Needleman-Wunsch 全局比对算法将两个输出融合。这是一个经典的动态规划方法,用于匹配两个序列,在这里就是视频文字流和声学文字流。有趣的是,Opus 的代码注释中声称使用了“Hirschberg-free 带状变体”来优化大规模输入,但实际代码并未实现该优化——注释与代码不符,这恰恰是只有人工审查才能发现的典型问题。

成本方面,GLM-5.2 共消耗约 2.09 亿个 token,而 Opus 4.8 消耗约 2.866 亿个,其中大部分是缓存读取。GLM 在 token 使用效率上略占优势。

作者强调,这项测试设计的初衷是奖励正确使用 AI 并惩罚滥用。如果开发者采取“氛围编码”(vibe-coding),即将大部分工作交给 AI 而不加审查,代码中很容易出现各种奇怪的漏洞,例如提示词被随意生成、依赖项混乱、处理测试数据过于简单等。offmute-v2 的成功正是建立在结构化数据和格式化的严格流程之上。

尽管 offmute-v2 表现亮眼,但并非完美无瑕。两个版本都暴露出一些初期 bug,例如 GLM 版本的缓存错误和不恰当的中转目录,以及 Opus 版本对视频格式的过分依赖。不过,这些问题均易于修复。作者认为,这仍然是一个里程碑式的时刻:前沿能力正在开源化,任何人都可以基于最先进的模型构建自己的工具。