[AINews] 今天沒發生太多事
本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底,生態系統轉向多模型編排。開源模型如GLM-5.2透過ZCode和基準測試取得進展。智慧體基礎設施引入維基記憶和結構化組合模式,Devin Security Swarm展示基於智慧體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。
Anthropic重新上線了Claude Fable 5,但附帶了安全兜底措施。部分請求可能被路由到Opus 4.8,生物/化學分類器仍然過於寬泛。重新上線迅速傳播到工具生態:Cursor表示Fable 5在其評估中領先但成本最高;Devin在Cloud/Desktop/CLI上新增了支援;Perplexity將其恢復為編排模型。Anthropic也重置了使用者的速率限制。
更有趣的是人們如何適應前沿模型約束。多個構建者轉向多模型編排而非單一模型依賴。@theo描述僅將Fable用於高價值推理/規劃,而將實現、驗證和計算機使用工作委託給其他模型,報告端到端PR產出顯著提升。@omarsar0認為團隊應設計模型組合策略,而非圍繞一個前沿模型構建。@MParakhin反駁“簡單任務預分類器”,認為可靠路由通常需要先解決任務本身。基準方面,@kimmonismus指出Fable 5在遠端勞動指數上達到16.10%,而@ArtificialAnlys報告Sonnet 5在AA-Briefcase上排名第二,但輪次更高,成本效益較差。
開源模型方面,Z.ai圍繞GLM-5.2構建產品表面,推出ZCode開發環境,支援BYOK、跨平臺,併為編碼計劃訂閱者提供配額提升。@kimmonismus將其描述為針對GLM工作流和長期自主任務最佳化的AI原生編碼IDE。生態系統迅速跟進:LangChain釋出了使用GLM-5.2進行編碼流程的指南,@hwchase17指出開發者正在將GLM-5.2作為日常驅動。基準測試顯示開源編碼模型正在縮小差距:@mercor_ai報告GLM 5.2成為首個在APEX-SWE上領先類別的開源模型,整合任務上達到55.3% Pass@1,整體排名最佳。@scaling01警告不要過度聲稱GLM已超越西方前沿模型,但承認編碼差距正在快速縮小。推理方面,vLLM為DeepSeek模型新增了原生DSpark推測解碼支援,8×B300上約250 tok/s,@mgoin_釋出了GLM-5.2 DSpark預覽,解碼速度提升約1.5倍。@jon_durbin報告Qwen3-32B上內部dflash草稿模型在相同硬體上吞吐量提高約50%。
智慧體基礎設施方面,“維基記憶”成為實用設計模式。@sydneyrunkle認為維基結構記憶是簡單可擴充套件的基礎。LangChain推出了OpenWiki,用於生成和維護智慧體可消費的程式碼庫文件。動機一致:智慧體在多個執行緒之間反覆丟失工作上下文,需要可維護、可檢查的知識層。記憶系統從僅檢索轉向協調和維護:Weaviate的Engram提取候選記憶,針對現有記憶進行轉換,然後才提交,以避免每次查詢時解決矛盾。@bpalit將其擴充套件到企業環境,要求智慧體記憶必須受管理、注意許可權並共享。結構化組合正在取代“給模型所有工具”的樸素方法:@omarsar0強調SkillComposer,將技能選擇視為聯合自迴歸組合問題,在SkillsBench上比無技能基線提升23.1/18.2個百分點。Deep Agents增加了對遞迴語言模型工作流的支援,@hwchase17將動態子代理與Agentic MapReduce模式聯絡起來。
安全方面,Cognition的Devin Security Swarm是智慧體架構專為企業工作流設計的清晰例子。該系統使用Agentic MapReduce將有限智慧體分散到程式碼庫,聚合發現,驗證可利用性,然後呈現已確認的漏洞。Cognition聲稱這比替代方案更具成本效益和準確性,並表示一家財富500強試點在生產倉庫中發現了超過一千個漏洞。@jakejluo和@levie認為這種模式將推廣到大規模文件、程式碼和知識工作流。AI智慧體評估正迅速成為子領域:@random_walker注意到幾篇推進智慧體評估的新論文。實際例子包括Agent Arena重新啟用Fable 5智慧體模式,AA-AgentPerf用於每兆瓦智慧體系統基準測試,以及WorldModelGym評估世界模型是否支援良好決策。FLARE-AI旨在標準化缺陷和事件報告,以便問題能夠路由到正確的開發者和註冊處。
系統方面,NVIDIA的TwoTower成果突出:Nemotron-Labs-TwoTower將30B模型調整為擴散式語言模型,透過雙副本設定並行寫入令牌。聲稱結果:生成速度提升2.42倍,同時保持原始模型質量的98.7%。端側和瀏覽器推理繼續受益於智慧體最佳化和專用執行時:Google Gemma展示WebGPU Gemma 4在M4上達到255 tok/s,歸功於使用Fable 5編寫的核心。@andimarafioti演示了基於Gemma 4 31B和Cerebras推理的完全開源即時語音棧,旨在作為OpenAI即時API的直接替代品。核心層面,Hugging Face的kernels庫現在暴露了MiniMax的MSA核心,Triton-on-Mac也引起興趣。
架構研究方面:@gklambauer指出AdaJEPA,一種LeCun領導的世界模型方法,透過潛在狀態預測誤差進行測試時適應;@LiorOnAI總結了NEO,學習可重用的因果“程式”而非僅下一幀預測;@ziv_ravid強調“在想象中訓練”是活躍正規化。