AI News HubLIVE
站內改寫3 分鐘閱讀

[AINews] 今天沒發生太多事

本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底,生態系統轉向多模型編排。開源模型如GLM-5.2通過ZCode和基準測試取得進展。智能體基礎設施引入維基記憶和結構化組合模式,Devin Security Swarm展示基於智能體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。

Anthropic重新上線了Claude Fable 5,但附帶了安全兜底措施。部分請求可能被路由到Opus 4.8,生物/化學分類器仍然過於寬泛。重新上線迅速傳播到工具生態:Cursor表示Fable 5在其評估中領先但成本最高;Devin在Cloud/Desktop/CLI上添加了支持;Perplexity將其恢復為編排模型。Anthropic也重置了用户的速率限制。

更有趣的是人們如何適應前沿模型約束。多個構建者轉向多模型編排而非單一模型依賴。@theo描述僅將Fable用於高價值推理/規劃,而將實現、驗證和計算機使用工作委託給其他模型,報告端到端PR產出顯著提升。@omarsar0認為團隊應設計模型組合策略,而非圍繞一個前沿模型構建。@MParakhin反駁“簡單任務預分類器”,認為可靠路由通常需要先解決任務本身。基準方面,@kimmonismus指出Fable 5在遠程勞動指數上達到16.10%,而@ArtificialAnlys報告Sonnet 5在AA-Briefcase上排名第二,但輪次更高,成本效益較差。

開源模型方面,Z.ai圍繞GLM-5.2構建產品表面,推出ZCode開發環境,支持BYOK、跨平台,併為編碼計劃訂閲者提供配額提升。@kimmonismus將其描述為針對GLM工作流和長期自主任務優化的AI原生編碼IDE。生態系統迅速跟進:LangChain發佈了使用GLM-5.2進行編碼流程的指南,@hwchase17指出開發者正在將GLM-5.2作為日常驅動。基準測試顯示開源編碼模型正在縮小差距:@mercor_ai報告GLM 5.2成為首個在APEX-SWE上領先類別的開源模型,集成任務上達到55.3% Pass@1,整體排名最佳。@scaling01警告不要過度聲稱GLM已超越西方前沿模型,但承認編碼差距正在快速縮小。推理方面,vLLM為DeepSeek模型添加了原生DSpark推測解碼支持,8×B300上約250 tok/s,@mgoin_發佈了GLM-5.2 DSpark預覽,解碼速度提升約1.5倍。@jon_durbin報告Qwen3-32B上內部dflash草稿模型在相同硬件上吞吐量提高約50%。

智能體基礎設施方面,“維基記憶”成為實用設計模式。@sydneyrunkle認為維基結構記憶是簡單可擴展的基礎。LangChain推出了OpenWiki,用於生成和維護智能體可消費的代碼庫文檔。動機一致:智能體在多個線程之間反覆丟失工作上下文,需要可維護、可檢查的知識層。記憶系統從僅檢索轉向協調和維護:Weaviate的Engram提取候選記憶,針對現有記憶進行轉換,然後才提交,以避免每次查詢時解決矛盾。@bpalit將其擴展到企業環境,要求智能體記憶必須受管理、注意權限並共享。結構化組合正在取代“給模型所有工具”的樸素方法:@omarsar0強調SkillComposer,將技能選擇視為聯合自迴歸組合問題,在SkillsBench上比無技能基線提升23.1/18.2個百分點。Deep Agents增加了對遞歸語言模型工作流的支持,@hwchase17將動態子代理與Agentic MapReduce模式聯繫起來。

安全方面,Cognition的Devin Security Swarm是智能體架構專為企業工作流設計的清晰例子。該系統使用Agentic MapReduce將有限智能體分散到代碼庫,聚合發現,驗證可利用性,然後呈現已確認的漏洞。Cognition聲稱這比替代方案更具成本效益和準確性,並表示一家財富500強試點在生產倉庫中發現了超過一千個漏洞。@jakejluo和@levie認為這種模式將推廣到大規模文檔、代碼和知識工作流。AI智能體評估正迅速成為子領域:@random_walker注意到幾篇推進智能體評估的新論文。實際例子包括Agent Arena重新啓用Fable 5智能體模式,AA-AgentPerf用於每兆瓦智能體系統基準測試,以及WorldModelGym評估世界模型是否支持良好決策。FLARE-AI旨在標準化缺陷和事件報告,以便問題能夠路由到正確的開發者和註冊處。

系統方面,NVIDIA的TwoTower成果突出:Nemotron-Labs-TwoTower將30B模型調整為擴散式語言模型,通過雙副本設置並行寫入令牌。聲稱結果:生成速度提升2.42倍,同時保持原始模型質量的98.7%。端側和瀏覽器推理繼續受益於智能體優化和專用運行時:Google Gemma展示WebGPU Gemma 4在M4上達到255 tok/s,歸功於使用Fable 5編寫的內核。@andimarafioti演示了基於Gemma 4 31B和Cerebras推理的完全開源實時語音棧,旨在作為OpenAI實時API的直接替代品。內核層面,Hugging Face的kernels庫現在暴露了MiniMax的MSA內核,Triton-on-Mac也引起興趣。

架構研究方面:@gklambauer指出AdaJEPA,一種LeCun領導的世界模型方法,通過潛在狀態預測誤差進行測試時適應;@LiorOnAI總結了NEO,學習可重用的因果“程序”而非僅下一幀預測;@ziv_ravid強調“在想象中訓練”是活躍範式。