AI News HubLIVE
站内改写4 分钟阅读

【AINews】GLM > GPT?GLM-5.2 通过“氛围检查”;Z.ai 预测十二月前会有开源 Fable 级模型

随着 GLM-5.2 通过所有人的“氛围检查”,开源模型的故事终于成为真正的前沿故事。

在 AI 新闻领域,谈论开源模型时总有些忐忑:它们往往在发布时声势浩大,在知名基准测试上表现亮眼,但一个月后便销声匿迹。用行话来说,这叫“刷分”。我们的读者曾反馈,他们喜欢 AINews 的一点是,我们会坦率地说某天没什么大事发生——这种“可以跳过”的简报实属罕见,部分原因是我们不靠流量驱动商业模式。与此同时,我们也在尝试做相反的事:反复强调一个显著趋势,与过滤低信号同样重要。

GLM 5 曾经通过了这一门槛,而 GLM 5.1 没有。但两天前我们报道的 GLM 5.2 感觉有些不同,而这一直觉今天得到了证实:多个样本外数据点通过了“这是一个恰好开源的前沿模型”的氛围检查。Jeremy Howard 不轻易夸赞,但他真诚地表示了赞赏;Artificial Analysis 的新知识工作基准测试将其评分置于 GPT 5.5 之上;它还在 /r/LocalLlama 社区通过了氛围检查。

Z.ai 作为真正的前沿实验室获得验证,这一趋势已不容忽视。开源模型获胜的最终里程碑是,我们何时能获得一个开源 Fable 级模型,且不受蒸馏攻击的可能——Z.ai 明显不在 Anthropic 二月份“工业规模蒸馏”报告中被指控的中国实验室名单中。一个棘手的问题是:在接下来的六个月里,四大实验室中是否还能有实验室再次发布 Fable 级模型,还是持续的 Mythos 禁令让一切停滞不前?

本文为 2026/6/17-6/18 的 AI 新闻。我们检查了 12 个子论坛、544 个 Twitter 账号,未检查更多 Discord。AINews 网站可搜索所有过往期次。提醒:AINews 现为 Latent Space 的一个板块。您可以选择接收邮件的频率。

AI Twitter 摘要

GLM-5.2 的突破、开源编码进展与新型开源模型

GLM-5.2 成为当日共识性开源故事:多名从业者独立指出,智谱的 GLM-5.2 是首个在日常使用中感觉接近前沿的开源权重模型。@rasbt 强调了架构变化:除了继承自 GLM/DeepSeek 风格的 MLA 和 DSA,GLM-5.2 增加了 IndexShare,跨层组复用稀疏注意力 top-k 索引,以降低百万级 token 推理的成本。社区情绪异常强烈:@jeremyphoward 称其“至少与 Opus 4.8 和 GPT 5.5 一样好”,同时指出主要差距在于缺乏视觉支持;@matvelloso 表示这是首个达到他“日常主力”标准的开源模型;@ArtificialAnlys 将其置于 GPT-5.5 和 Opus 4.8 之间。智谱还积极推广可用性:通过 Hugging Face Inference Providers 限时免费提供,支持通过 llama.cpp/Unsloth 本地 GGUF,以及内部任务从 21/70 提升至 48/70。

其他开源模型同样值得关注:@poolsideai 以 Apache 2.0 协议发布了 Laguna M.1 权重,支持 256K 上下文;@vllm_project 描述其为一个 70 层稀疏 MoE,总参数量 225B,活跃 23B,256 个专家,top-k=16,针对长周期智能体编码优化。Poolside 随后展示了在 Apple Silicon 上 3-bit MLX 构建,约 26 tok/s,峰值内存约 100 GB。小模型方面,@cohere 推动了 North Mini Code 的可访问性,提供 4-bit 量化、Ollama 支持和免费 OpenRouter 访问。

Agent 框架、工作流自动化与编码工具

重心持续从“模型”转向“模型+框架+记忆+SCM”:@_xjdr 详细论述了传统 git/GitHub 工作流在数十甚至数百个并发代码 agent 面前失效的问题:陈旧的工作树、分歧的审查状态、环境设置开销以及状态同步不足。他提出的替代方案结合了虚拟浅层 checkout、jj、Sapling 式提交栈、云同步、文件级 ACL 以及从模型到 SCM 再到远程运行时的垂直整合,现通过 Noumena Code / ncode 产品化。同样,@gneubig 认为基准测试应评估框架+LLM 对,而非单独评估。

自动化原语变得更易教学和重用:@OpenAIDevs 推出了 Codex Record & Replay,允许用户演示一次工作流后将其转化为可检查的技能;@cursor_ai 发布了 /automate,Cursor 可从自然语言任务配置触发器/指令/工具,增加了 Slack 表情触发器、GitHub 触发器和云端 agent 的计算机使用。@ClaudeDevs 在 Claude Code 中推出了 Artifacts,使 agent 能将进行中的工作转化为可共享的实时页面。

安全审查正成为 agent 的一等任务:@cognition 在 Devin Review 中加入了自动安全审查,@shayanshafii 将 Devin for Security 描述为解决 AppSec 中“发现与修复”长期分裂的方案。

基准测试、评估与长周期 Agent 测量

Artificial Analysis 发布了更真实的智能体知识工作基准:@ArtificialAnlys 推出了 AA-Briefcase,基于多周项目、数千条碎片化输入、Slack/邮件/文档语料库以及财务模型和董事会报告等交付物。在该基准上,Claude Fable 5 以 1587 Elo 领先,Opus 4.8 以 1356 紧随其后,GLM-5.2 以 1266 成为最强的非 Anthropic 开源参赛者。基准还暴露了质量和经济性:Fable 5 平均每任务 31 美元,Opus 4.8 10.40 美元,GPT-5.5 xhigh 3.68 美元,GLM-5.2 2.40 美元。更广泛的教训是,真实世界的长周期知识工作仍然困难:顶级模型仅在 3% 的任务中满足所有评分标准。

推理、检索与系统效率

推理与检索优化仍是重要副线:@liquidai 发布了 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,覆盖 11 种语言,宣称在企业堆栈上端到端检索延迟 1.5 毫秒。@CoreWeave 声称 Kimi K2.7 Code 服务吞吐量达 289 tok/s。@vllm_project 报告 Ray Serve LLM + vLLM 在预填重负载上提升高达 4.4 倍,解码重负载上提升 24 倍。矢量数据库/解析经济性显著改善:@turbopuffer 将基础计划从 64 美元降至 16 美元/月,并增加 i8 向量;文档方面,@llama_index 和 @jerryjliu0 推出 LiteParse v2.1,宣称是同类最快。

健康、医学与安全/对齐研究

OpenAI 的健康相关消息密集:@OpenAI 分享了与波士顿儿童医院/哈佛合作的 NEJM AI 研究,显示 o3 Deep Research 帮助医生重新审视未解决的儿科罕见病病例;@gdb 总结称在 376 个未解决病例中发现了 18 个新诊断。另外,@OpenAI 表示 GPT-5.5 Instant 在健康相关问题上已与前沿“思考”模型持平。OpenAI 还发布了更广泛的对齐研究:通过 RL 训练模型在健康对话中展现诚实、谦逊和人类福祉关怀等特质,在 44/53 项内部/外部对齐和益处评估中取得改进。

Reddit 摘要:/r/LocalLlama + /r/localLLM

GLM-5.2 本地访问与量化:帖子认为 GLM-5.2 对本地 AI 意义重大,尽管其 753B 总参数 MoE 足迹(每 token 约 40B 活跃),但由于 MIT 许可、28.5T token 预训练规模、声称的 1M 上下文/131k 输出支持以及前沿级编码 agent 行为,可能实现高质量合成数据蒸馏为 8B/70B 本地模型。作者估计推理内存从 FP8 的约 744–890GB 到动态 1-bit 量化的约 176–180GB,KV 缓存开销约为每 100k token 15–20GB、7.5–10GB 或 3.5–5GB。评论者报告了强烈的 API 使用印象,有人声称 GLM-5.2 与 MiniMax/Mimi 模型已基本缩小了与专有前沿模型的差距,并会信任 GLM-5.2 胜过 Opus 4.8。但也有一些反对其“本地”实用性的声音:只有拥有 512GB Mac、GB10 集群或多块 128GB AMD AI Max 系统的用户才可能运行,硬件需求越来越“不切实际”,这激发了对蒸馏或密集 70B 变体的兴趣。