哪個代理導致任務失敗以及何時?PSU和杜克大學研究人員探索LLM多代理系統的自動故障歸因
來自賓夕法尼亞州立大學和杜克大學的研究人員,聯合Google DeepMind等機構,提出了LLM多代理系統中自動故障歸因的問題。他們構建了Who&When基準數據集,並評估了All-at-Once、Step-by-Step和Binary Search等方法。該工作被ICML 2025接收為亮點論文,旨在幫助開發者快速定位導致故障的代理及其錯誤步驟。當前方法在識別責任代理上準確率僅達53.5%,在定位錯誤步驟上僅14.2%。
- 首次形式化定義LLM多代理系統的自動故障歸因任務。
- Who&When數據集包含127個故障日誌,帶有責任代理和錯誤步驟的細粒度標註。
麻省理工學院推出SEAL:邁向自我改進AI的新一步
MIT發佈了SEAL框架,使大語言模型能通過強化學習自我編輯和更新權重,加速了AI自我進化的進程。
- SEAL允許LLM通過強化學習生成自我編輯以更新參數
- 在少樣本學習和知識整合任務中顯著提升性能
賓州州立大學與杜克大學研究人員提出“多智能體系統自動化故障歸因”
針對LLM多智能體系統故障難以診斷的問題,研究人員首次定義了“自動化故障歸因”任務,構建了Who&When基準數據集,並評估了三種歸因方法。實驗表明,即使最佳方法在識別責任智能體上準確率僅53.5%,精確錯誤步驟僅14.2%,任務難度較高。該研究被ICML 2025接收為亮點論文。
- 首次正式定義多智能體系統中的自動化故障歸因任務。
- 構建了包含127個系統故障日誌的Who&When數據集,含細粒度人工標註。
Adobe 研究團隊利用狀態空間模型解鎖視頻世界模型中的長期記憶
Adobe 研究團隊與斯坦福大學、普林斯頓大學合作,提出一種結合狀態空間模型(SSM)和密集局部注意力的新型架構,有效解決了視頻世界模型中的長期記憶難題。通過塊狀 SSM 掃描方案、擴散強制訓練和幀局部注意力等策略,模型在 Memory Maze 和 Minecraft 等數據集上表現出色,能夠在不犧牲計算效率的前提下保持遠距離幀的連貫性,為交互式應用提供了可能。
- 提出長上下文狀態空間視頻世界模型(LSSVWM),結合 SSM 的長距離建模能力和局部注意力的空間連貫性。
- 採用塊狀 SSM 掃描方案,在保持計算效率的同時顯著擴展時間記憶範圍。
DeepSeek-V3新論文發佈!通過硬件感知協同設計揭示低成本大模型訓練的秘密
DeepSeek-V3團隊發佈了一篇14頁的技術論文,由CEO梁文鋒合著,探討了硬件感知模型協同設計以克服擴展挑戰。論文詳細介紹了多頭潛在注意力(MLA)、DeepSeekMoE、FP8訓練和節點感知路由等創新,實現了經濟高效的大規模訓練和推理。
- DeepSeek-V3技術論文揭示了硬件感知協同設計實現低成本大模型訓練的策略。
- 關鍵創新包括用於內存效率的MLA、用於稀疏計算的DeepSeekMoE以及FP8混合精度訓練。
DeepSeek發佈DeepSeek-Prover-V2:利用遞歸證明搜索和新基準推進神經定理證明
DeepSeek AI發佈了DeepSeek-Prover-V2,一個針對Lean 4形式定理證明的開源大型語言模型。它採用遞歸證明搜索方法,結合DeepSeek-V3生成訓練數據,並通過強化學習優化,在MiniF2F上取得了頂級結果。同時推出了新基準ProverBench。
- DeepSeek-Prover-V2通過遞歸證明搜索管道,利用DeepSeek-V3生成冷啓動訓練數據。
- 該模型在MiniF2F測試中達到88.9%的通過率,並在PutnamBench上解決49個問題。
GRPO能高效10倍嗎?Kwai AI的SRPO給出肯定答案
Kwai AI提出的SRPO框架將LLM強化學習後訓練步驟減少90%,同時在數學和代碼領域達到DeepSeek-R1水平。該兩階段強化學習方法結合歷史重採樣,克服了GRPO的侷限性。
- SRPO通過兩階段訓練解決數學與代碼領域的優化衝突。
- 歷史重採樣策略提升梯度信號質量,避免性能瓶頸。
智譜AI開源高速GLM模型:推理速度提升8倍,推出Z.ai平台,全球化擴張或為IPO鋪路
中國AI公司智譜AI宣佈開源其新一代GLM模型系列,包括推理速度達DeepSeek-R1八倍的GLM-Z1、具備自主推理能力的Rumination模型GLM-Z1-Rumination-32B-0414,以及增強智能體能力的GLM-4-32B-0414。同時推出國際平台Z.ai,並通過MaaS平台提供企業級服務。此舉展示了其技術實力和全球野心,可能為潛在IPO做準備。
- 開源GLM-Z1推理模型,速度達200 tokens/s,比DeepSeek-R1快8倍
- 推出Rumination模型,具備自主搜索、分析、驗證能力
DeepSeek 預告下一代 R2 模型,推出 SPCT 實現推理擴展新方法
DeepSeek AI 發佈新論文,提出自原則批評調優(SPCT)方法,旨在增強通用獎勵模型在推理階段的擴展性。同時暗示下一代模型 R2 即將到來,引發業界關注。
- DeepSeek 公佈 SPCT 技術,通過拒絕微調和基於規則的在線強化學習,動態生成原則和批評,提升獎勵模型的推理擴展能力。
- 論文指出大語言模型範式正從預訓練轉向後訓練,特別是推理階段,強化學習與 LLM 協同可增強長程規劃能力。