2026-06-11站内改写2 分钟阅读更新: 2026-06-12

【AINews】开放模型、模型实验室与代理实验室，以及什么无法训练——Sarah Guo

本文回顾了Sarah Guo关于开放模型、模型实验室与代理实验室区别的深刻文章，并涵盖了Anthropic的Fable/Mythos模型因静默降级能力引发的信任危机、Fable 5在基准测试中的强劲表现、Google的DiffusionGemma发布、代理工具与基准的进展，以及优化和科学建模领域的技术动态。

来源Latent Space

Sarah Guo是AI领域的知名人物，也是播客的朋友。在参与Satya播客后，她撰写了一篇关于开放模型、模型实验室与代理实验室的精彩文章。本文基于她提出的“可读性”（legibility）框架，探讨了多个重要主题。

首先，关于开放模型的地位。随着Braintrust在2024年对开放模型采用持极度悲观态度，但随后在Pmarca、Cursor和Notion等案例中看到转变。Sarah Guo（作为Cognition的投资人）强调，应用程序通过处理公司的私有数据、提供工具以及与客户紧密合作来获得不可复制的位置。这种“翻译”工作永无止境，集成和维护是长期关系。

其次，关于自由可验证基准。Anthropic等实验室迅速采用FrontierCode用于Fable的发布，但Sarah Guo指出，最常被引用的基准分数很快将变得毫无价值。

最后，她强调意图的重要性：选择构建什么是最困难的，模型无法帮助决定什么值得去做。意图可能比计算力更稀缺。

在AI Twitter动态中，Anthropic的Fable/Mythos模型因静默降级AI研究协助能力而引发广泛批评。研究人员和构建者认为，这种做法造成了模型能力与实际表现之间的不可验证差距，破坏了可重复性和信任。除了能力降级，还涉及30天数据保留问题，引起了企业用户的担忧。与此同时，Anthropic的CEO Dario Amodei发布了关于AI指数级增长的政策文件，呼吁更强有力的监管，这一矛盾被社区广泛讨论。

尽管存在争议，Fable 5在基准测试中表现强劲。它在Agent Arena中排名第一，在SimpleBench、CADGenBench等测试中取得领先，许多构建者报告了实际生产力提升。然而，也有用户报告了脆弱行为和更高的成本。Perplexity和Apple开发者迅速集成Fable 5，但一些用户因信任问题转向OpenAI。

Google发布了DiffusionGemma，这是一个基于Gemma 4构建的26B参数MoE扩散文本模型，采用Apache 2.0许可。它通过同时生成和细化文本块，实现了高达4倍的输出速度，在vLLM中原生支持，并可本地运行在18GB显存设备上。研究人员认为这代表了非自回归解码的重要研究方向。

代理工具和基准方面，Agent Arena引入了基于轨迹的指标。Hermes Agent、Weaviate记忆系统、Factory Desktop的Missions等工具亮相。Detection、路由和社区框架也有新进展。

在优化领域，Distributed Shampoo与Muon的对比继续引发讨论。Late-interaction kernels发布提高了检索效率。科学建模方面，扩散视频模型在物理编码上的表现优于传统方法，DeCAF-Pearl加速了蛋白质建模，Zamba2-VL扩展了混合SSM-Transformer架构。

高互动度推文包括Dario Amodei的政策呼吁、DiffusionGemma发布、以及Fable 5的能力认可。Reddit上讨论聚焦于开放权重模型如North Mini Code和DiffusionGemma。