2026-06-19站内改写4 分鐘閱讀更新: 2026-06-19

【AINews】GLM > GPT？GLM-5.2 透過“氛圍檢查”；Z.ai 預測十二月前會有開源 Fable 級模型

隨著 GLM-5.2 透過所有人的“氛圍檢查”，開源模型的故事終於成為真正的前沿故事。

在 AI 新聞領域，談論開源模型時總有些忐忑：它們往往在釋出時聲勢浩大，在知名基準測試上表現亮眼，但一個月後便銷聲匿跡。用行話來說，這叫“刷分”。我們的讀者曾反饋，他們喜歡 AINews 的一點是，我們會坦率地說某天沒什麼大事發生——這種“可以跳過”的簡報實屬罕見，部分原因是我們不靠流量驅動商業模式。與此同時，我們也在嘗試做相反的事：反覆強調一個顯著趨勢，與過濾低訊號同樣重要。

GLM 5 曾經透過了這一門檻，而 GLM 5.1 沒有。但兩天前我們報道的 GLM 5.2 感覺有些不同，而這一直覺今天得到了證實：多個樣本外資料點透過了“這是一個恰好開源的前沿模型”的氛圍檢查。Jeremy Howard 不輕易誇讚，但他真誠地表示了讚賞；Artificial Analysis 的新知識工作基準測試將其評分置於 GPT 5.5 之上；它還在 /r/LocalLlama 社群透過了氛圍檢查。

Z.ai 作為真正的前沿實驗室獲得驗證，這一趨勢已不容忽視。開源模型獲勝的最終里程碑是，我們何時能獲得一個開源 Fable 級模型，且不受蒸餾攻擊的可能——Z.ai 明顯不在 Anthropic 二月份“工業規模蒸餾”報告中被指控的中國實驗室名單中。一個棘手的問題是：在接下來的六個月裡，四大實驗室中是否還能有實驗室再次釋出 Fable 級模型，還是持續的 Mythos 禁令讓一切停滯不前？

本文為 2026/6/17-6/18 的 AI 新聞。我們檢查了 12 個子論壇、544 個 Twitter 賬號，未檢查更多 Discord。AINews 網站可搜尋所有過往期次。提醒：AINews 現為 Latent Space 的一個板塊。您可以選擇接收郵件的頻率。

AI Twitter 摘要

GLM-5.2 的突破、開源編碼進展與新型開源模型

GLM-5.2 成為當日共識性開源故事：多名從業者獨立指出，智譜的 GLM-5.2 是首個在日常使用中感覺接近前沿的開源權重模型。@rasbt 強調了架構變化：除了繼承自 GLM/DeepSeek 風格的 MLA 和 DSA，GLM-5.2 增加了 IndexShare，跨層組複用稀疏注意力 top-k 索引，以降低百萬級 token 推理的成本。社群情緒異常強烈：@jeremyphoward 稱其“至少與 Opus 4.8 和 GPT 5.5 一樣好”，同時指出主要差距在於缺乏視覺支援；@matvelloso 表示這是首個達到他“日常主力”標準的開源模型；@ArtificialAnlys 將其置於 GPT-5.5 和 Opus 4.8 之間。智譜還積極推廣可用性：透過 Hugging Face Inference Providers 限時免費提供，支援透過 llama.cpp/Unsloth 本地 GGUF，以及內部任務從 21/70 提升至 48/70。

其他開源模型同樣值得關注：@poolsideai 以 Apache 2.0 協議釋出了 Laguna M.1 權重，支援 256K 上下文；@vllm_project 描述其為一個 70 層稀疏 MoE，總引數量 225B，活躍 23B，256 個專家，top-k=16，針對長週期智慧體編碼最佳化。Poolside 隨後展示了在 Apple Silicon 上 3-bit MLX 構建，約 26 tok/s，峰值記憶體約 100 GB。小模型方面，@cohere 推動了 North Mini Code 的可訪問性，提供 4-bit 量化、Ollama 支援和免費 OpenRouter 訪問。

Agent 框架、工作流自動化與編碼工具

重心持續從“模型”轉向“模型+框架+記憶+SCM”：@_xjdr 詳細論述了傳統 git/GitHub 工作流在數十甚至數百個併發程式碼 agent 面前失效的問題：陳舊的工作樹、分歧的審查狀態、環境設定開銷以及狀態同步不足。他提出的替代方案結合了虛擬淺層 checkout、jj、Sapling 式提交棧、雲同步、檔案級 ACL 以及從模型到 SCM 再到遠端執行時的垂直整合，現透過 Noumena Code / ncode 產品化。同樣，@gneubig 認為基準測試應評估框架+LLM 對，而非單獨評估。

自動化原語變得更易教學和重用：@OpenAIDevs 推出了 Codex Record & Replay，允許使用者演示一次工作流後將其轉化為可檢查的技能；@cursor_ai 釋出了 /automate，Cursor 可從自然語言任務配置觸發器/指令/工具，增加了 Slack 表情觸發器、GitHub 觸發器和雲端 agent 的計算機使用。@ClaudeDevs 在 Claude Code 中推出了 Artifacts，使 agent 能將進行中的工作轉化為可共享的即時頁面。

安全審查正成為 agent 的一等任務：@cognition 在 Devin Review 中加入了自動安全審查，@shayanshafii 將 Devin for Security 描述為解決 AppSec 中“發現與修復”長期分裂的方案。

基準測試、評估與長週期 Agent 測量

Artificial Analysis 釋出了更真實的智慧體知識工作基準：@ArtificialAnlys 推出了 AA-Briefcase，基於多周專案、數千條碎片化輸入、Slack/郵件/文件語料庫以及財務模型和董事會報告等交付物。在該基準上，Claude Fable 5 以 1587 Elo 領先，Opus 4.8 以 1356 緊隨其後，GLM-5.2 以 1266 成為最強的非 Anthropic 開源參賽者。基準還暴露了質量和經濟性：Fable 5 平均每任務 31 美元，Opus 4.8 10.40 美元，GPT-5.5 xhigh 3.68 美元，GLM-5.2 2.40 美元。更廣泛的教訓是，真實世界的長週期知識工作仍然困難：頂級模型僅在 3% 的任務中滿足所有評分標準。

推理、檢索與系統效率

推理與檢索最佳化仍是重要副線：@liquidai 釋出了 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M，覆蓋 11 種語言，宣稱在企業堆疊上端到端檢索延遲 1.5 毫秒。@CoreWeave 聲稱 Kimi K2.7 Code 服務吞吐量達 289 tok/s。@vllm_project 報告 Ray Serve LLM + vLLM 在預填重負載上提升高達 4.4 倍，解碼重負載上提升 24 倍。向量資料庫/解析經濟性顯著改善：@turbopuffer 將基礎計劃從 64 美元降至 16 美元/月，並增加 i8 向量；文件方面，@llama_index 和 @jerryjliu0 推出 LiteParse v2.1，宣稱是同類最快。

健康、醫學與安全/對齊研究

OpenAI 的健康相關訊息密集：@OpenAI 分享了與波士頓兒童醫院/哈佛合作的 NEJM AI 研究，顯示 o3 Deep Research 幫助醫生重新審視未解決的兒科罕見病病例；@gdb 總結稱在 376 個未解決病例中發現了 18 個新診斷。另外，@OpenAI 表示 GPT-5.5 Instant 在健康相關問題上已與前沿“思考”模型持平。OpenAI 還發布了更廣泛的對齊研究：透過 RL 訓練模型在健康對話中展現誠實、謙遜和人類福祉關懷等特質，在 44/53 項內部/外部對齊和益處評估中取得改進。

Reddit 摘要：/r/LocalLlama + /r/localLLM

GLM-5.2 本地訪問與量化：帖子認為 GLM-5.2 對本地 AI 意義重大，儘管其 753B 總引數 MoE 足跡（每 token 約 40B 活躍），但由於 MIT 許可、28.5T token 預訓練規模、聲稱的 1M 上下文/131k 輸出支援以及前沿級編碼 agent 行為，可能實現高質量合成資料蒸餾為 8B/70B 本地模型。作者估計推理記憶體從 FP8 的約 744–890GB 到動態 1-bit 量化的約 176–180GB，KV 快取開銷約為每 100k token 15–20GB、7.5–10GB 或 3.5–5GB。評論者報告了強烈的 API 使用印象，有人聲稱 GLM-5.2 與 MiniMax/Mimi 模型已基本縮小了與專有前沿模型的差距，並會信任 GLM-5.2 勝過 Opus 4.8。但也有一些反對其“本地”實用性的聲音：只有擁有 512GB Mac、GB10 叢集或多塊 128GB AMD AI Max 系統的使用者才可能執行，硬體需求越來越“不切實際”，這激發了對蒸餾或密集 70B 變體的興趣。