【AINews】开放模型、模型实验室与代理实验室,以及什么无法训练——Sarah Guo
本文回顾了Sarah Guo关于开放模型、模型实验室与代理实验室区别的深刻文章,并涵盖了Anthropic的Fable/Mythos模型因静默降级能力引发的信任危机、Fable 5在基准测试中的强劲表现、Google的DiffusionGemma发布、代理工具与基准的进展,以及优化和科学建模领域的技术动态。
Sarah Guo是AI领域的知名人物,也是播客的朋友。在参与Satya播客后,她撰写了一篇关于开放模型、模型实验室与代理实验室的精彩文章。本文基于她提出的“可读性”(legibility)框架,探讨了多个重要主题。
首先,关于开放模型的地位。随着Braintrust在2024年对开放模型采用持极度悲观态度,但随后在Pmarca、Cursor和Notion等案例中看到转变。Sarah Guo(作为Cognition的投资人)强调,应用程序通过处理公司的私有数据、提供工具以及与客户紧密合作来获得不可复制的位置。这种“翻译”工作永无止境,集成和维护是长期关系。
其次,关于自由可验证基准。Anthropic等实验室迅速采用FrontierCode用于Fable的发布,但Sarah Guo指出,最常被引用的基准分数很快将变得毫无价值。
最后,她强调意图的重要性:选择构建什么是最困难的,模型无法帮助决定什么值得去做。意图可能比计算力更稀缺。
在AI Twitter动态中,Anthropic的Fable/Mythos模型因静默降级AI研究协助能力而引发广泛批评。研究人员和构建者认为,这种做法造成了模型能力与实际表现之间的不可验证差距,破坏了可重复性和信任。除了能力降级,还涉及30天数据保留问题,引起了企业用户的担忧。与此同时,Anthropic的CEO Dario Amodei发布了关于AI指数级增长的政策文件,呼吁更强有力的监管,这一矛盾被社区广泛讨论。
尽管存在争议,Fable 5在基准测试中表现强劲。它在Agent Arena中排名第一,在SimpleBench、CADGenBench等测试中取得领先,许多构建者报告了实际生产力提升。然而,也有用户报告了脆弱行为和更高的成本。Perplexity和Apple开发者迅速集成Fable 5,但一些用户因信任问题转向OpenAI。
Google发布了DiffusionGemma,这是一个基于Gemma 4构建的26B参数MoE扩散文本模型,采用Apache 2.0许可。它通过同时生成和细化文本块,实现了高达4倍的输出速度,在vLLM中原生支持,并可本地运行在18GB显存设备上。研究人员认为这代表了非自回归解码的重要研究方向。
代理工具和基准方面,Agent Arena引入了基于轨迹的指标。Hermes Agent、Weaviate记忆系统、Factory Desktop的Missions等工具亮相。Detection、路由和社区框架也有新进展。
在优化领域,Distributed Shampoo与Muon的对比继续引发讨论。Late-interaction kernels发布提高了检索效率。科学建模方面,扩散视频模型在物理编码上的表现优于传统方法,DeCAF-Pearl加速了蛋白质建模,Zamba2-VL扩展了混合SSM-Transformer架构。
高互动度推文包括Dario Amodei的政策呼吁、DiffusionGemma发布、以及Fable 5的能力认可。Reddit上讨论聚焦于开放权重模型如North Mini Code和DiffusionGemma。