2026-07-02 15:10 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-02 21:47 UTC+8

[AINews] 今天沒發生太多事

本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底，生態系統轉向多模型編排。開源模型如GLM-5.2透過ZCode和基準測試取得進展。智慧體基礎設施引入維基記憶和結構化組合模式，Devin Security Swarm展示基於智慧體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。

來源Latent Space

Anthropic重新上線了Claude Fable 5，但附帶了安全兜底措施。部分請求可能被路由到Opus 4.8，生物/化學分類器仍然過於寬泛。重新上線迅速傳播到工具生態：Cursor表示Fable 5在其評估中領先但成本最高；Devin在Cloud/Desktop/CLI上新增了支援；Perplexity將其恢復為編排模型。Anthropic也重置了使用者的速率限制。

更有趣的是人們如何適應前沿模型約束。多個構建者轉向多模型編排而非單一模型依賴。@theo描述僅將Fable用於高價值推理/規劃，而將實現、驗證和計算機使用工作委託給其他模型，報告端到端PR產出顯著提升。@omarsar0認為團隊應設計模型組合策略，而非圍繞一個前沿模型構建。@MParakhin反駁“簡單任務預分類器”，認為可靠路由通常需要先解決任務本身。基準方面，@kimmonismus指出Fable 5在遠端勞動指數上達到16.10%，而@ArtificialAnlys報告Sonnet 5在AA-Briefcase上排名第二，但輪次更高，成本效益較差。

開源模型方面，Z.ai圍繞GLM-5.2構建產品表面，推出ZCode開發環境，支援BYOK、跨平臺，併為編碼計劃訂閱者提供配額提升。@kimmonismus將其描述為針對GLM工作流和長期自主任務最佳化的AI原生編碼IDE。生態系統迅速跟進：LangChain釋出了使用GLM-5.2進行編碼流程的指南，@hwchase17指出開發者正在將GLM-5.2作為日常驅動。基準測試顯示開源編碼模型正在縮小差距：@mercor_ai報告GLM 5.2成為首個在APEX-SWE上領先類別的開源模型，整合任務上達到55.3% Pass@1，整體排名最佳。@scaling01警告不要過度聲稱GLM已超越西方前沿模型，但承認編碼差距正在快速縮小。推理方面，vLLM為DeepSeek模型新增了原生DSpark推測解碼支援，8×B300上約250 tok/s，@mgoin_釋出了GLM-5.2 DSpark預覽，解碼速度提升約1.5倍。@jon_durbin報告Qwen3-32B上內部dflash草稿模型在相同硬體上吞吐量提高約50%。

智慧體基礎設施方面，“維基記憶”成為實用設計模式。@sydneyrunkle認為維基結構記憶是簡單可擴充套件的基礎。LangChain推出了OpenWiki，用於生成和維護智慧體可消費的程式碼庫文件。動機一致：智慧體在多個執行緒之間反覆丟失工作上下文，需要可維護、可檢查的知識層。記憶系統從僅檢索轉向協調和維護：Weaviate的Engram提取候選記憶，針對現有記憶進行轉換，然後才提交，以避免每次查詢時解決矛盾。@bpalit將其擴充套件到企業環境，要求智慧體記憶必須受管理、注意許可權並共享。結構化組合正在取代“給模型所有工具”的樸素方法：@omarsar0強調SkillComposer，將技能選擇視為聯合自迴歸組合問題，在SkillsBench上比無技能基線提升23.1/18.2個百分點。Deep Agents增加了對遞迴語言模型工作流的支援，@hwchase17將動態子代理與Agentic MapReduce模式聯絡起來。

安全方面，Cognition的Devin Security Swarm是智慧體架構專為企業工作流設計的清晰例子。該系統使用Agentic MapReduce將有限智慧體分散到程式碼庫，聚合發現，驗證可利用性，然後呈現已確認的漏洞。Cognition聲稱這比替代方案更具成本效益和準確性，並表示一家財富500強試點在生產倉庫中發現了超過一千個漏洞。@jakejluo和@levie認為這種模式將推廣到大規模文件、程式碼和知識工作流。AI智慧體評估正迅速成為子領域：@random_walker注意到幾篇推進智慧體評估的新論文。實際例子包括Agent Arena重新啟用Fable 5智慧體模式，AA-AgentPerf用於每兆瓦智慧體系統基準測試，以及WorldModelGym評估世界模型是否支援良好決策。FLARE-AI旨在標準化缺陷和事件報告，以便問題能夠路由到正確的開發者和註冊處。

系統方面，NVIDIA的TwoTower成果突出：Nemotron-Labs-TwoTower將30B模型調整為擴散式語言模型，透過雙副本設定並行寫入令牌。聲稱結果：生成速度提升2.42倍，同時保持原始模型質量的98.7%。端側和瀏覽器推理繼續受益於智慧體最佳化和專用執行時：Google Gemma展示WebGPU Gemma 4在M4上達到255 tok/s，歸功於使用Fable 5編寫的核心。@andimarafioti演示了基於Gemma 4 31B和Cerebras推理的完全開源即時語音棧，旨在作為OpenAI即時API的直接替代品。核心層面，Hugging Face的kernels庫現在暴露了MiniMax的MSA核心，Triton-on-Mac也引起興趣。

架構研究方面：@gklambauer指出AdaJEPA，一種LeCun領導的世界模型方法，透過潛在狀態預測誤差進行測試時適應；@LiorOnAI總結了NEO，學習可重用的因果“程式”而非僅下一幀預測；@ziv_ravid強調“在想象中訓練”是活躍正規化。