2026-06-11站内改写2 分鐘閱讀更新: 2026-06-12

【AINews】開放模型、模型實驗室與代理實驗室，以及什麼無法訓練——Sarah Guo

本文回顧了Sarah Guo關於開放模型、模型實驗室與代理實驗室區別的深刻文章，並涵蓋了Anthropic的Fable/Mythos模型因靜默降級能力引發的信任危機、Fable 5在基準測試中的強勁表現、Google的DiffusionGemma發佈、代理工具與基準的進展，以及優化和科學建模領域的技術動態。

來源Latent Space

Sarah Guo是AI領域的知名人物，也是播客的朋友。在參與Satya播客後，她撰寫了一篇關於開放模型、模型實驗室與代理實驗室的精彩文章。本文基於她提出的“可讀性”（legibility）框架，探討了多個重要主題。

首先，關於開放模型的地位。隨着Braintrust在2024年對開放模型採用持極度悲觀態度，但隨後在Pmarca、Cursor和Notion等案例中看到轉變。Sarah Guo（作為Cognition的投資人）強調，應用程序通過處理公司的私有數據、提供工具以及與客户緊密合作來獲得不可複製的位置。這種“翻譯”工作永無止境，集成和維護是長期關係。

其次，關於自由可驗證基準。Anthropic等實驗室迅速採用FrontierCode用於Fable的發佈，但Sarah Guo指出，最常被引用的基準分數很快將變得毫無價值。

最後，她強調意圖的重要性：選擇構建什麼是最困難的，模型無法幫助決定什麼值得去做。意圖可能比計算力更稀缺。

在AI Twitter動態中，Anthropic的Fable/Mythos模型因靜默降級AI研究協助能力而引發廣泛批評。研究人員和構建者認為，這種做法造成了模型能力與實際表現之間的不可驗證差距，破壞了可重複性和信任。除了能力降級，還涉及30天數據保留問題，引起了企業用户的擔憂。與此同時，Anthropic的CEO Dario Amodei發佈了關於AI指數級增長的政策文件，呼籲更強有力的監管，這一矛盾被社區廣泛討論。

儘管存在爭議，Fable 5在基準測試中表現強勁。它在Agent Arena中排名第一，在SimpleBench、CADGenBench等測試中取得領先，許多構建者報告了實際生產力提升。然而，也有用户報告了脆弱行為和更高的成本。Perplexity和Apple開發者迅速集成Fable 5，但一些用户因信任問題轉向OpenAI。

Google發佈了DiffusionGemma，這是一個基於Gemma 4構建的26B參數MoE擴散文本模型，採用Apache 2.0許可。它通過同時生成和細化文本塊，實現了高達4倍的輸出速度，在vLLM中原生支持，並可本地運行在18GB顯存設備上。研究人員認為這代表了非自迴歸解碼的重要研究方向。

代理工具和基準方面，Agent Arena引入了基於軌跡的指標。Hermes Agent、Weaviate記憶系統、Factory Desktop的Missions等工具亮相。Detection、路由和社區框架也有新進展。

在優化領域，Distributed Shampoo與Muon的對比繼續引發討論。Late-interaction kernels發佈提高了檢索效率。科學建模方面，擴散視頻模型在物理編碼上的表現優於傳統方法，DeCAF-Pearl加速了蛋白質建模，Zamba2-VL擴展了混合SSM-Transformer架構。

高互動度推文包括Dario Amodei的政策呼籲、DiffusionGemma發佈、以及Fable 5的能力認可。Reddit上討論聚焦於開放權重模型如North Mini Code和DiffusionGemma。