2026-06-21 00:52 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

開源界的里程碑：GLM-5.2 在實際任務中超越 Opus 4.8

在一項專門設計用於抵禦 AI 作弊的後端編程測試中，GLM-5.2 單次生成的代碼質量顯著優於 Opus 4.8。作者藉此機會發佈了 offmute-v2——一個融合語音轉文字和多模態大語言模型的開源轉錄流水線，並詳細分享了實驗過程、技術細節和注意事項。

來源Hacker News AI作者: hrishi

近日，在一場針對 AI 輔助編程能力的測試中，GLM-5.2 模型展現出了驚人的實力。這場測試並非普通的代碼挑戰，而是一個特意設計成“AI 抵抗性”的後端編程作業，要求開發者將三個現有開源項目（offmute、meeting-diary 和 ipgu）的功能整合成一個統一的流水線。測試結果顯示，GLM-5.2 僅通過一次嘗試就生成了比 Opus 4.8 更高質量、更易維護的代碼，其轉錄和説話人識別準確度也更為出色。

基於這一成功，作者正式發佈了 offmute-v2，一個完全開源的新一代轉錄工具。它巧妙地將常規語音轉文本（STT）模型與多模態大語言模型（LLM）結合起來，能夠生成時間戳準確、帶有説話人標記的轉錄文本，並且可以在任何環境下運行，甚至包括瀏覽器。offmute-v2 不僅比前代版本更精確、格式更優，而且成本更低，堪稱“非氛圍式”的工程成果。

測試的細節頗為有趣。作者為 GLM-5.2 和 Opus 4.8 提供了完全相同的提示文件、兩個測試錄音（一個嘈雜的講座和一個多人播客），以及人工校驗的轉錄樣本。兩個模型均在 Claude Code 環境下執行，以消除框架差異。結果顯示，GLM 版本初次使用僅有一個可修復的緩存 bug，而 Opus 版本則存在音頻文件兼容性問題。整體而言，GLM 的輸出質量、代碼風格和指令遵循程度都更勝一籌。

在技術層面，兩個模型不約而同地採用了相同的核心策略：讓多模態 LLM 負責內容（原文、語氣、説話人切換），讓 ASR 模型提供精準的時間戳，然後通過 Needleman-Wunsch 全局比對算法將兩個輸出融合。這是一個經典的動態規劃方法，用於匹配兩個序列，在這裏就是視頻文字流和聲學文字流。有趣的是，Opus 的代碼註釋中聲稱使用了“Hirschberg-free 帶狀變體”來優化大規模輸入，但實際代碼並未實現該優化——註釋與代碼不符，這恰恰是隻有人工審查才能發現的典型問題。

成本方面，GLM-5.2 共消耗約 2.09 億個 token，而 Opus 4.8 消耗約 2.866 億個，其中大部分是緩存讀取。GLM 在 token 使用效率上略佔優勢。

作者強調，這項測試設計的初衷是獎勵正確使用 AI 並懲罰濫用。如果開發者採取“氛圍編碼”（vibe-coding），即將大部分工作交給 AI 而不加審查，代碼中很容易出現各種奇怪的漏洞，例如提示詞被隨意生成、依賴項混亂、處理測試數據過於簡單等。offmute-v2 的成功正是建立在結構化數據和格式化的嚴格流程之上。

儘管 offmute-v2 表現亮眼，但並非完美無瑕。兩個版本都暴露出一些初期 bug，例如 GLM 版本的緩存錯誤和不恰當的中轉目錄，以及 Opus 版本對視頻格式的過分依賴。不過，這些問題均易於修復。作者認為，這仍然是一個里程碑式的時刻：前沿能力正在開源化，任何人都可以基於最先進的模型構建自己的工具。