【AINews】開放模型、模型實驗室與代理實驗室,以及什麼無法訓練——Sarah Guo
本文回顧了Sarah Guo關於開放模型、模型實驗室與代理實驗室區別的深刻文章,並涵蓋了Anthropic的Fable/Mythos模型因靜默降級能力引發的信任危機、Fable 5在基準測試中的強勁表現、Google的DiffusionGemma發佈、代理工具與基準的進展,以及優化和科學建模領域的技術動態。
Sarah Guo是AI領域的知名人物,也是播客的朋友。在參與Satya播客後,她撰寫了一篇關於開放模型、模型實驗室與代理實驗室的精彩文章。本文基於她提出的“可讀性”(legibility)框架,探討了多個重要主題。
首先,關於開放模型的地位。隨着Braintrust在2024年對開放模型採用持極度悲觀態度,但隨後在Pmarca、Cursor和Notion等案例中看到轉變。Sarah Guo(作為Cognition的投資人)強調,應用程序通過處理公司的私有數據、提供工具以及與客户緊密合作來獲得不可複製的位置。這種“翻譯”工作永無止境,集成和維護是長期關係。
其次,關於自由可驗證基準。Anthropic等實驗室迅速採用FrontierCode用於Fable的發佈,但Sarah Guo指出,最常被引用的基準分數很快將變得毫無價值。
最後,她強調意圖的重要性:選擇構建什麼是最困難的,模型無法幫助決定什麼值得去做。意圖可能比計算力更稀缺。
在AI Twitter動態中,Anthropic的Fable/Mythos模型因靜默降級AI研究協助能力而引發廣泛批評。研究人員和構建者認為,這種做法造成了模型能力與實際表現之間的不可驗證差距,破壞了可重複性和信任。除了能力降級,還涉及30天數據保留問題,引起了企業用户的擔憂。與此同時,Anthropic的CEO Dario Amodei發佈了關於AI指數級增長的政策文件,呼籲更強有力的監管,這一矛盾被社區廣泛討論。
儘管存在爭議,Fable 5在基準測試中表現強勁。它在Agent Arena中排名第一,在SimpleBench、CADGenBench等測試中取得領先,許多構建者報告了實際生產力提升。然而,也有用户報告了脆弱行為和更高的成本。Perplexity和Apple開發者迅速集成Fable 5,但一些用户因信任問題轉向OpenAI。
Google發佈了DiffusionGemma,這是一個基於Gemma 4構建的26B參數MoE擴散文本模型,採用Apache 2.0許可。它通過同時生成和細化文本塊,實現了高達4倍的輸出速度,在vLLM中原生支持,並可本地運行在18GB顯存設備上。研究人員認為這代表了非自迴歸解碼的重要研究方向。
代理工具和基準方面,Agent Arena引入了基於軌跡的指標。Hermes Agent、Weaviate記憶系統、Factory Desktop的Missions等工具亮相。Detection、路由和社區框架也有新進展。
在優化領域,Distributed Shampoo與Muon的對比繼續引發討論。Late-interaction kernels發佈提高了檢索效率。科學建模方面,擴散視頻模型在物理編碼上的表現優於傳統方法,DeCAF-Pearl加速了蛋白質建模,Zamba2-VL擴展了混合SSM-Transformer架構。
高互動度推文包括Dario Amodei的政策呼籲、DiffusionGemma發佈、以及Fable 5的能力認可。Reddit上討論聚焦於開放權重模型如North Mini Code和DiffusionGemma。