AI News HubLIVE
公開文章 9採集文章 10可信度 78刷新頻率 60 分鐘
健康狀態 健康來源類型 媒體原文權限 站內改寫最近入庫 2026-05-08ID synced-review運行狀態 已啟用

AI research and industry media source; summary-only unless authorization is obtained.

最新公開文章

哪個代理導致任務失敗以及何時?PSU和杜克大學研究人員探索LLM多代理系統的自動故障歸因

來自賓夕法尼亞州立大學和杜克大學的研究人員,聯合Google DeepMind等機構,提出了LLM多代理系統中自動故障歸因的問題。他們構建了Who&When基準資料集,並評估了All-at-Once、Step-by-Step和Binary Search等方法。該工作被ICML 2025接收為亮點論文,旨在幫助開發者快速定位導致故障的代理及其錯誤步驟。當前方法在識別責任代理上準確率僅達53.5%,在定位錯誤步驟上僅14.2%。

  • 首次形式化定義LLM多代理系統的自動故障歸因任務。
  • Who&When資料集包含127個故障日誌,帶有責任代理和錯誤步驟的細粒度標註。
站內正文

麻省理工學院推出SEAL:邁向自我改進AI的新一步

MIT釋出了SEAL框架,使大語言模型能透過強化學習自我編輯和更新權重,加速了AI自我進化的程序。

  • SEAL允許LLM透過強化學習生成自我編輯以更新引數
  • 在少樣本學習和知識整合任務中顯著提升效能
站內正文

賓州州立大學與杜克大學研究人員提出“多智慧體系統自動化故障歸因”

針對LLM多智慧體系統故障難以診斷的問題,研究人員首次定義了“自動化故障歸因”任務,構建了Who&When基準資料集,並評估了三種歸因方法。實驗表明,即使最佳方法在識別責任智慧體上準確率僅53.5%,精確錯誤步驟僅14.2%,任務難度較高。該研究被ICML 2025接收為亮點論文。

  • 首次正式定義多智慧體系統中的自動化故障歸因任務。
  • 構建了包含127個系統故障日誌的Who&When資料集,含細粒度人工標註。
站內正文

Adobe 研究團隊利用狀態空間模型解鎖影片世界模型中的長期記憶

Adobe 研究團隊與斯坦福大學、普林斯頓大學合作,提出一種結合狀態空間模型(SSM)和密集區域性注意力的新型架構,有效解決了影片世界模型中的長期記憶難題。透過塊狀 SSM 掃描方案、擴散強制訓練和幀區域性注意力等策略,模型在 Memory Maze 和 Minecraft 等資料集上表現出色,能夠在不犧牲計算效率的前提下保持遠距離幀的連貫性,為互動式應用提供了可能。

  • 提出長上下文狀態空間影片世界模型(LSSVWM),結合 SSM 的長距離建模能力和區域性注意力的空間連貫性。
  • 採用塊狀 SSM 掃描方案,在保持計算效率的同時顯著擴充套件時間記憶範圍。
站內正文

DeepSeek-V3新論文釋出!透過硬體感知協同設計揭示低成本大模型訓練的秘密

DeepSeek-V3團隊釋出了一篇14頁的技術論文,由CEO梁文鋒合著,探討了硬體感知模型協同設計以克服擴充套件挑戰。論文詳細介紹了多頭潛在注意力(MLA)、DeepSeekMoE、FP8訓練和節點感知路由等創新,實現了經濟高效的大規模訓練和推理。

  • DeepSeek-V3技術論文揭示了硬體感知協同設計實現低成本大模型訓練的策略。
  • 關鍵創新包括用於記憶體效率的MLA、用於稀疏計算的DeepSeekMoE以及FP8混合精度訓練。
站內正文

DeepSeek釋出DeepSeek-Prover-V2:利用遞迴證明搜尋和新基準推進神經定理證明

DeepSeek AI釋出了DeepSeek-Prover-V2,一個針對Lean 4形式定理證明的開源大型語言模型。它採用遞迴證明搜尋方法,結合DeepSeek-V3生成訓練資料,並透過強化學習最佳化,在MiniF2F上取得了頂級結果。同時推出了新基準ProverBench。

  • DeepSeek-Prover-V2透過遞迴證明搜尋管道,利用DeepSeek-V3生成冷啟動訓練資料。
  • 該模型在MiniF2F測試中達到88.9%的透過率,並在PutnamBench上解決49個問題。
站內正文

GRPO能高效10倍嗎?Kwai AI的SRPO給出肯定答案

Kwai AI提出的SRPO框架將LLM強化學習後訓練步驟減少90%,同時在數學和程式碼領域達到DeepSeek-R1水平。該兩階段強化學習方法結合歷史重取樣,克服了GRPO的侷限性。

  • SRPO透過兩階段訓練解決數學與程式碼領域的最佳化衝突。
  • 歷史重取樣策略提升梯度訊號質量,避免效能瓶頸。
站內正文

智譜AI開源高速GLM模型:推理速度提升8倍,推出Z.ai平臺,全球化擴張或為IPO鋪路

中國AI公司智譜AI宣佈開源其新一代GLM模型系列,包括推理速度達DeepSeek-R1八倍的GLM-Z1、具備自主推理能力的Rumination模型GLM-Z1-Rumination-32B-0414,以及增強智慧體能力的GLM-4-32B-0414。同時推出國際平臺Z.ai,並透過MaaS平臺提供企業級服務。此舉展示了其技術實力和全球野心,可能為潛在IPO做準備。

  • 開源GLM-Z1推理模型,速度達200 tokens/s,比DeepSeek-R1快8倍
  • 推出Rumination模型,具備自主搜尋、分析、驗證能力
站內正文

DeepSeek 預告下一代 R2 模型,推出 SPCT 實現推理擴充套件新方法

DeepSeek AI 釋出新論文,提出自原則批評調優(SPCT)方法,旨在增強通用獎勵模型在推理階段的擴充套件性。同時暗示下一代模型 R2 即將到來,引發業界關注。

  • DeepSeek 公佈 SPCT 技術,透過拒絕微調和基於規則的線上強化學習,動態生成原則和批評,提升獎勵模型的推理擴充套件能力。
  • 論文指出大語言模型正規化正從預訓練轉向後訓練,特別是推理階段,強化學習與 LLM 協同可增強長程規劃能力。
站內正文

全部來源