2026-06-19站内改写4 分钟阅读更新: 2026-06-19

【AINews】GLM > GPT？GLM-5.2 通过“氛围检查”；Z.ai 预测十二月前会有开源 Fable 级模型

随着 GLM-5.2 通过所有人的“氛围检查”，开源模型的故事终于成为真正的前沿故事。

在 AI 新闻领域，谈论开源模型时总有些忐忑：它们往往在发布时声势浩大，在知名基准测试上表现亮眼，但一个月后便销声匿迹。用行话来说，这叫“刷分”。我们的读者曾反馈，他们喜欢 AINews 的一点是，我们会坦率地说某天没什么大事发生——这种“可以跳过”的简报实属罕见，部分原因是我们不靠流量驱动商业模式。与此同时，我们也在尝试做相反的事：反复强调一个显著趋势，与过滤低信号同样重要。

GLM 5 曾经通过了这一门槛，而 GLM 5.1 没有。但两天前我们报道的 GLM 5.2 感觉有些不同，而这一直觉今天得到了证实：多个样本外数据点通过了“这是一个恰好开源的前沿模型”的氛围检查。Jeremy Howard 不轻易夸赞，但他真诚地表示了赞赏；Artificial Analysis 的新知识工作基准测试将其评分置于 GPT 5.5 之上；它还在 /r/LocalLlama 社区通过了氛围检查。

Z.ai 作为真正的前沿实验室获得验证，这一趋势已不容忽视。开源模型获胜的最终里程碑是，我们何时能获得一个开源 Fable 级模型，且不受蒸馏攻击的可能——Z.ai 明显不在 Anthropic 二月份“工业规模蒸馏”报告中被指控的中国实验室名单中。一个棘手的问题是：在接下来的六个月里，四大实验室中是否还能有实验室再次发布 Fable 级模型，还是持续的 Mythos 禁令让一切停滞不前？

本文为 2026/6/17-6/18 的 AI 新闻。我们检查了 12 个子论坛、544 个 Twitter 账号，未检查更多 Discord。AINews 网站可搜索所有过往期次。提醒：AINews 现为 Latent Space 的一个板块。您可以选择接收邮件的频率。

AI Twitter 摘要

GLM-5.2 的突破、开源编码进展与新型开源模型

GLM-5.2 成为当日共识性开源故事：多名从业者独立指出，智谱的 GLM-5.2 是首个在日常使用中感觉接近前沿的开源权重模型。@rasbt 强调了架构变化：除了继承自 GLM/DeepSeek 风格的 MLA 和 DSA，GLM-5.2 增加了 IndexShare，跨层组复用稀疏注意力 top-k 索引，以降低百万级 token 推理的成本。社区情绪异常强烈：@jeremyphoward 称其“至少与 Opus 4.8 和 GPT 5.5 一样好”，同时指出主要差距在于缺乏视觉支持；@matvelloso 表示这是首个达到他“日常主力”标准的开源模型；@ArtificialAnlys 将其置于 GPT-5.5 和 Opus 4.8 之间。智谱还积极推广可用性：通过 Hugging Face Inference Providers 限时免费提供，支持通过 llama.cpp/Unsloth 本地 GGUF，以及内部任务从 21/70 提升至 48/70。

其他开源模型同样值得关注：@poolsideai 以 Apache 2.0 协议发布了 Laguna M.1 权重，支持 256K 上下文；@vllm_project 描述其为一个 70 层稀疏 MoE，总参数量 225B，活跃 23B，256 个专家，top-k=16，针对长周期智能体编码优化。Poolside 随后展示了在 Apple Silicon 上 3-bit MLX 构建，约 26 tok/s，峰值内存约 100 GB。小模型方面，@cohere 推动了 North Mini Code 的可访问性，提供 4-bit 量化、Ollama 支持和免费 OpenRouter 访问。

Agent 框架、工作流自动化与编码工具

重心持续从“模型”转向“模型+框架+记忆+SCM”：@_xjdr 详细论述了传统 git/GitHub 工作流在数十甚至数百个并发代码 agent 面前失效的问题：陈旧的工作树、分歧的审查状态、环境设置开销以及状态同步不足。他提出的替代方案结合了虚拟浅层 checkout、jj、Sapling 式提交栈、云同步、文件级 ACL 以及从模型到 SCM 再到远程运行时的垂直整合，现通过 Noumena Code / ncode 产品化。同样，@gneubig 认为基准测试应评估框架+LLM 对，而非单独评估。

自动化原语变得更易教学和重用：@OpenAIDevs 推出了 Codex Record & Replay，允许用户演示一次工作流后将其转化为可检查的技能；@cursor_ai 发布了 /automate，Cursor 可从自然语言任务配置触发器/指令/工具，增加了 Slack 表情触发器、GitHub 触发器和云端 agent 的计算机使用。@ClaudeDevs 在 Claude Code 中推出了 Artifacts，使 agent 能将进行中的工作转化为可共享的实时页面。

安全审查正成为 agent 的一等任务：@cognition 在 Devin Review 中加入了自动安全审查，@shayanshafii 将 Devin for Security 描述为解决 AppSec 中“发现与修复”长期分裂的方案。

基准测试、评估与长周期 Agent 测量

Artificial Analysis 发布了更真实的智能体知识工作基准：@ArtificialAnlys 推出了 AA-Briefcase，基于多周项目、数千条碎片化输入、Slack/邮件/文档语料库以及财务模型和董事会报告等交付物。在该基准上，Claude Fable 5 以 1587 Elo 领先，Opus 4.8 以 1356 紧随其后，GLM-5.2 以 1266 成为最强的非 Anthropic 开源参赛者。基准还暴露了质量和经济性：Fable 5 平均每任务 31 美元，Opus 4.8 10.40 美元，GPT-5.5 xhigh 3.68 美元，GLM-5.2 2.40 美元。更广泛的教训是，真实世界的长周期知识工作仍然困难：顶级模型仅在 3% 的任务中满足所有评分标准。

推理、检索与系统效率

推理与检索优化仍是重要副线：@liquidai 发布了 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M，覆盖 11 种语言，宣称在企业堆栈上端到端检索延迟 1.5 毫秒。@CoreWeave 声称 Kimi K2.7 Code 服务吞吐量达 289 tok/s。@vllm_project 报告 Ray Serve LLM + vLLM 在预填重负载上提升高达 4.4 倍，解码重负载上提升 24 倍。矢量数据库/解析经济性显著改善：@turbopuffer 将基础计划从 64 美元降至 16 美元/月，并增加 i8 向量；文档方面，@llama_index 和 @jerryjliu0 推出 LiteParse v2.1，宣称是同类最快。

健康、医学与安全/对齐研究

OpenAI 的健康相关消息密集：@OpenAI 分享了与波士顿儿童医院/哈佛合作的 NEJM AI 研究，显示 o3 Deep Research 帮助医生重新审视未解决的儿科罕见病病例；@gdb 总结称在 376 个未解决病例中发现了 18 个新诊断。另外，@OpenAI 表示 GPT-5.5 Instant 在健康相关问题上已与前沿“思考”模型持平。OpenAI 还发布了更广泛的对齐研究：通过 RL 训练模型在健康对话中展现诚实、谦逊和人类福祉关怀等特质，在 44/53 项内部/外部对齐和益处评估中取得改进。

Reddit 摘要：/r/LocalLlama + /r/localLLM

GLM-5.2 本地访问与量化：帖子认为 GLM-5.2 对本地 AI 意义重大，尽管其 753B 总参数 MoE 足迹（每 token 约 40B 活跃），但由于 MIT 许可、28.5T token 预训练规模、声称的 1M 上下文/131k 输出支持以及前沿级编码 agent 行为，可能实现高质量合成数据蒸馏为 8B/70B 本地模型。作者估计推理内存从 FP8 的约 744–890GB 到动态 1-bit 量化的约 176–180GB，KV 缓存开销约为每 100k token 15–20GB、7.5–10GB 或 3.5–5GB。评论者报告了强烈的 API 使用印象，有人声称 GLM-5.2 与 MiniMax/Mimi 模型已基本缩小了与专有前沿模型的差距，并会信任 GLM-5.2 胜过 Opus 4.8。但也有一些反对其“本地”实用性的声音：只有拥有 512GB Mac、GB10 集群或多块 128GB AMD AI Max 系统的用户才可能运行，硬件需求越来越“不切实际”，这激发了对蒸馏或密集 70B 变体的兴趣。