2026-07-02 15:10 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-02 21:47 UTC+8

[AINews] 今天沒發生太多事

本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底，生態系統轉向多模型編排。開源模型如GLM-5.2通過ZCode和基準測試取得進展。智能體基礎設施引入維基記憶和結構化組合模式，Devin Security Swarm展示基於智能體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。

來源Latent Space

Anthropic重新上線了Claude Fable 5，但附帶了安全兜底措施。部分請求可能被路由到Opus 4.8，生物/化學分類器仍然過於寬泛。重新上線迅速傳播到工具生態：Cursor表示Fable 5在其評估中領先但成本最高；Devin在Cloud/Desktop/CLI上添加了支持；Perplexity將其恢復為編排模型。Anthropic也重置了用户的速率限制。

更有趣的是人們如何適應前沿模型約束。多個構建者轉向多模型編排而非單一模型依賴。@theo描述僅將Fable用於高價值推理/規劃，而將實現、驗證和計算機使用工作委託給其他模型，報告端到端PR產出顯著提升。@omarsar0認為團隊應設計模型組合策略，而非圍繞一個前沿模型構建。@MParakhin反駁“簡單任務預分類器”，認為可靠路由通常需要先解決任務本身。基準方面，@kimmonismus指出Fable 5在遠程勞動指數上達到16.10%，而@ArtificialAnlys報告Sonnet 5在AA-Briefcase上排名第二，但輪次更高，成本效益較差。

開源模型方面，Z.ai圍繞GLM-5.2構建產品表面，推出ZCode開發環境，支持BYOK、跨平台，併為編碼計劃訂閲者提供配額提升。@kimmonismus將其描述為針對GLM工作流和長期自主任務優化的AI原生編碼IDE。生態系統迅速跟進：LangChain發佈了使用GLM-5.2進行編碼流程的指南，@hwchase17指出開發者正在將GLM-5.2作為日常驅動。基準測試顯示開源編碼模型正在縮小差距：@mercor_ai報告GLM 5.2成為首個在APEX-SWE上領先類別的開源模型，集成任務上達到55.3% Pass@1，整體排名最佳。@scaling01警告不要過度聲稱GLM已超越西方前沿模型，但承認編碼差距正在快速縮小。推理方面，vLLM為DeepSeek模型添加了原生DSpark推測解碼支持，8×B300上約250 tok/s，@mgoin_發佈了GLM-5.2 DSpark預覽，解碼速度提升約1.5倍。@jon_durbin報告Qwen3-32B上內部dflash草稿模型在相同硬件上吞吐量提高約50%。

智能體基礎設施方面，“維基記憶”成為實用設計模式。@sydneyrunkle認為維基結構記憶是簡單可擴展的基礎。LangChain推出了OpenWiki，用於生成和維護智能體可消費的代碼庫文檔。動機一致：智能體在多個線程之間反覆丟失工作上下文，需要可維護、可檢查的知識層。記憶系統從僅檢索轉向協調和維護：Weaviate的Engram提取候選記憶，針對現有記憶進行轉換，然後才提交，以避免每次查詢時解決矛盾。@bpalit將其擴展到企業環境，要求智能體記憶必須受管理、注意權限並共享。結構化組合正在取代“給模型所有工具”的樸素方法：@omarsar0強調SkillComposer，將技能選擇視為聯合自迴歸組合問題，在SkillsBench上比無技能基線提升23.1/18.2個百分點。Deep Agents增加了對遞歸語言模型工作流的支持，@hwchase17將動態子代理與Agentic MapReduce模式聯繫起來。

安全方面，Cognition的Devin Security Swarm是智能體架構專為企業工作流設計的清晰例子。該系統使用Agentic MapReduce將有限智能體分散到代碼庫，聚合發現，驗證可利用性，然後呈現已確認的漏洞。Cognition聲稱這比替代方案更具成本效益和準確性，並表示一家財富500強試點在生產倉庫中發現了超過一千個漏洞。@jakejluo和@levie認為這種模式將推廣到大規模文檔、代碼和知識工作流。AI智能體評估正迅速成為子領域：@random_walker注意到幾篇推進智能體評估的新論文。實際例子包括Agent Arena重新啓用Fable 5智能體模式，AA-AgentPerf用於每兆瓦智能體系統基準測試，以及WorldModelGym評估世界模型是否支持良好決策。FLARE-AI旨在標準化缺陷和事件報告，以便問題能夠路由到正確的開發者和註冊處。

系統方面，NVIDIA的TwoTower成果突出：Nemotron-Labs-TwoTower將30B模型調整為擴散式語言模型，通過雙副本設置並行寫入令牌。聲稱結果：生成速度提升2.42倍，同時保持原始模型質量的98.7%。端側和瀏覽器推理繼續受益於智能體優化和專用運行時：Google Gemma展示WebGPU Gemma 4在M4上達到255 tok/s，歸功於使用Fable 5編寫的內核。@andimarafioti演示了基於Gemma 4 31B和Cerebras推理的完全開源實時語音棧，旨在作為OpenAI實時API的直接替代品。內核層面，Hugging Face的kernels庫現在暴露了MiniMax的MSA內核，Triton-on-Mac也引起興趣。

架構研究方面：@gklambauer指出AdaJEPA，一種LeCun領導的世界模型方法，通過潛在狀態預測誤差進行測試時適應；@LiorOnAI總結了NEO，學習可重用的因果“程序”而非僅下一幀預測；@ziv_ravid強調“在想象中訓練”是活躍範式。