【AINews】GLM > GPT?GLM-5.2 透過“氛圍檢查”;Z.ai 預測十二月前會有開源 Fable 級模型
隨著 GLM-5.2 透過所有人的“氛圍檢查”,開源模型的故事終於成為真正的前沿故事。
在 AI 新聞領域,談論開源模型時總有些忐忑:它們往往在釋出時聲勢浩大,在知名基準測試上表現亮眼,但一個月後便銷聲匿跡。用行話來說,這叫“刷分”。我們的讀者曾反饋,他們喜歡 AINews 的一點是,我們會坦率地說某天沒什麼大事發生——這種“可以跳過”的簡報實屬罕見,部分原因是我們不靠流量驅動商業模式。與此同時,我們也在嘗試做相反的事:反覆強調一個顯著趨勢,與過濾低訊號同樣重要。
GLM 5 曾經透過了這一門檻,而 GLM 5.1 沒有。但兩天前我們報道的 GLM 5.2 感覺有些不同,而這一直覺今天得到了證實:多個樣本外資料點透過了“這是一個恰好開源的前沿模型”的氛圍檢查。Jeremy Howard 不輕易誇讚,但他真誠地表示了讚賞;Artificial Analysis 的新知識工作基準測試將其評分置於 GPT 5.5 之上;它還在 /r/LocalLlama 社群透過了氛圍檢查。
Z.ai 作為真正的前沿實驗室獲得驗證,這一趨勢已不容忽視。開源模型獲勝的最終里程碑是,我們何時能獲得一個開源 Fable 級模型,且不受蒸餾攻擊的可能——Z.ai 明顯不在 Anthropic 二月份“工業規模蒸餾”報告中被指控的中國實驗室名單中。一個棘手的問題是:在接下來的六個月裡,四大實驗室中是否還能有實驗室再次釋出 Fable 級模型,還是持續的 Mythos 禁令讓一切停滯不前?
本文為 2026/6/17-6/18 的 AI 新聞。我們檢查了 12 個子論壇、544 個 Twitter 賬號,未檢查更多 Discord。AINews 網站可搜尋所有過往期次。提醒:AINews 現為 Latent Space 的一個板塊。您可以選擇接收郵件的頻率。
AI Twitter 摘要
GLM-5.2 的突破、開源編碼進展與新型開源模型
GLM-5.2 成為當日共識性開源故事:多名從業者獨立指出,智譜的 GLM-5.2 是首個在日常使用中感覺接近前沿的開源權重模型。@rasbt 強調了架構變化:除了繼承自 GLM/DeepSeek 風格的 MLA 和 DSA,GLM-5.2 增加了 IndexShare,跨層組複用稀疏注意力 top-k 索引,以降低百萬級 token 推理的成本。社群情緒異常強烈:@jeremyphoward 稱其“至少與 Opus 4.8 和 GPT 5.5 一樣好”,同時指出主要差距在於缺乏視覺支援;@matvelloso 表示這是首個達到他“日常主力”標準的開源模型;@ArtificialAnlys 將其置於 GPT-5.5 和 Opus 4.8 之間。智譜還積極推廣可用性:透過 Hugging Face Inference Providers 限時免費提供,支援透過 llama.cpp/Unsloth 本地 GGUF,以及內部任務從 21/70 提升至 48/70。
其他開源模型同樣值得關注:@poolsideai 以 Apache 2.0 協議釋出了 Laguna M.1 權重,支援 256K 上下文;@vllm_project 描述其為一個 70 層稀疏 MoE,總引數量 225B,活躍 23B,256 個專家,top-k=16,針對長週期智慧體編碼最佳化。Poolside 隨後展示了在 Apple Silicon 上 3-bit MLX 構建,約 26 tok/s,峰值記憶體約 100 GB。小模型方面,@cohere 推動了 North Mini Code 的可訪問性,提供 4-bit 量化、Ollama 支援和免費 OpenRouter 訪問。
Agent 框架、工作流自動化與編碼工具
重心持續從“模型”轉向“模型+框架+記憶+SCM”:@_xjdr 詳細論述了傳統 git/GitHub 工作流在數十甚至數百個併發程式碼 agent 面前失效的問題:陳舊的工作樹、分歧的審查狀態、環境設定開銷以及狀態同步不足。他提出的替代方案結合了虛擬淺層 checkout、jj、Sapling 式提交棧、雲同步、檔案級 ACL 以及從模型到 SCM 再到遠端執行時的垂直整合,現透過 Noumena Code / ncode 產品化。同樣,@gneubig 認為基準測試應評估框架+LLM 對,而非單獨評估。
自動化原語變得更易教學和重用:@OpenAIDevs 推出了 Codex Record & Replay,允許使用者演示一次工作流後將其轉化為可檢查的技能;@cursor_ai 釋出了 /automate,Cursor 可從自然語言任務配置觸發器/指令/工具,增加了 Slack 表情觸發器、GitHub 觸發器和雲端 agent 的計算機使用。@ClaudeDevs 在 Claude Code 中推出了 Artifacts,使 agent 能將進行中的工作轉化為可共享的即時頁面。
安全審查正成為 agent 的一等任務:@cognition 在 Devin Review 中加入了自動安全審查,@shayanshafii 將 Devin for Security 描述為解決 AppSec 中“發現與修復”長期分裂的方案。
基準測試、評估與長週期 Agent 測量
Artificial Analysis 釋出了更真實的智慧體知識工作基準:@ArtificialAnlys 推出了 AA-Briefcase,基於多周專案、數千條碎片化輸入、Slack/郵件/文件語料庫以及財務模型和董事會報告等交付物。在該基準上,Claude Fable 5 以 1587 Elo 領先,Opus 4.8 以 1356 緊隨其後,GLM-5.2 以 1266 成為最強的非 Anthropic 開源參賽者。基準還暴露了質量和經濟性:Fable 5 平均每任務 31 美元,Opus 4.8 10.40 美元,GPT-5.5 xhigh 3.68 美元,GLM-5.2 2.40 美元。更廣泛的教訓是,真實世界的長週期知識工作仍然困難:頂級模型僅在 3% 的任務中滿足所有評分標準。
推理、檢索與系統效率
推理與檢索最佳化仍是重要副線:@liquidai 釋出了 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,覆蓋 11 種語言,宣稱在企業堆疊上端到端檢索延遲 1.5 毫秒。@CoreWeave 聲稱 Kimi K2.7 Code 服務吞吐量達 289 tok/s。@vllm_project 報告 Ray Serve LLM + vLLM 在預填重負載上提升高達 4.4 倍,解碼重負載上提升 24 倍。向量資料庫/解析經濟性顯著改善:@turbopuffer 將基礎計劃從 64 美元降至 16 美元/月,並增加 i8 向量;文件方面,@llama_index 和 @jerryjliu0 推出 LiteParse v2.1,宣稱是同類最快。
健康、醫學與安全/對齊研究
OpenAI 的健康相關訊息密集:@OpenAI 分享了與波士頓兒童醫院/哈佛合作的 NEJM AI 研究,顯示 o3 Deep Research 幫助醫生重新審視未解決的兒科罕見病病例;@gdb 總結稱在 376 個未解決病例中發現了 18 個新診斷。另外,@OpenAI 表示 GPT-5.5 Instant 在健康相關問題上已與前沿“思考”模型持平。OpenAI 還發布了更廣泛的對齊研究:透過 RL 訓練模型在健康對話中展現誠實、謙遜和人類福祉關懷等特質,在 44/53 項內部/外部對齊和益處評估中取得改進。
Reddit 摘要:/r/LocalLlama + /r/localLLM
GLM-5.2 本地訪問與量化:帖子認為 GLM-5.2 對本地 AI 意義重大,儘管其 753B 總引數 MoE 足跡(每 token 約 40B 活躍),但由於 MIT 許可、28.5T token 預訓練規模、聲稱的 1M 上下文/131k 輸出支援以及前沿級編碼 agent 行為,可能實現高質量合成資料蒸餾為 8B/70B 本地模型。作者估計推理記憶體從 FP8 的約 744–890GB 到動態 1-bit 量化的約 176–180GB,KV 快取開銷約為每 100k token 15–20GB、7.5–10GB 或 3.5–5GB。評論者報告了強烈的 API 使用印象,有人聲稱 GLM-5.2 與 MiniMax/Mimi 模型已基本縮小了與專有前沿模型的差距,並會信任 GLM-5.2 勝過 Opus 4.8。但也有一些反對其“本地”實用性的聲音:只有擁有 512GB Mac、GB10 叢集或多塊 128GB AMD AI Max 系統的使用者才可能執行,硬體需求越來越“不切實際”,這激發了對蒸餾或密集 70B 變體的興趣。