哪个代理导致任务失败以及何时?PSU和杜克大学研究人员探索LLM多代理系统的自动故障归因
来自宾夕法尼亚州立大学和杜克大学的研究人员,联合Google DeepMind等机构,提出了LLM多代理系统中自动故障归因的问题。他们构建了Who&When基准数据集,并评估了All-at-Once、Step-by-Step和Binary Search等方法。该工作被ICML 2025接收为亮点论文,旨在帮助开发者快速定位导致故障的代理及其错误步骤。当前方法在识别责任代理上准确率仅达53.5%,在定位错误步骤上仅14.2%。
- 首次形式化定义LLM多代理系统的自动故障归因任务。
- Who&When数据集包含127个故障日志,带有责任代理和错误步骤的细粒度标注。
麻省理工学院推出SEAL:迈向自我改进AI的新一步
MIT发布了SEAL框架,使大语言模型能通过强化学习自我编辑和更新权重,加速了AI自我进化的进程。
- SEAL允许LLM通过强化学习生成自我编辑以更新参数
- 在少样本学习和知识整合任务中显著提升性能
宾州州立大学与杜克大学研究人员提出“多智能体系统自动化故障归因”
针对LLM多智能体系统故障难以诊断的问题,研究人员首次定义了“自动化故障归因”任务,构建了Who&When基准数据集,并评估了三种归因方法。实验表明,即使最佳方法在识别责任智能体上准确率仅53.5%,精确错误步骤仅14.2%,任务难度较高。该研究被ICML 2025接收为亮点论文。
- 首次正式定义多智能体系统中的自动化故障归因任务。
- 构建了包含127个系统故障日志的Who&When数据集,含细粒度人工标注。
Adobe 研究团队利用状态空间模型解锁视频世界模型中的长期记忆
Adobe 研究团队与斯坦福大学、普林斯顿大学合作,提出一种结合状态空间模型(SSM)和密集局部注意力的新型架构,有效解决了视频世界模型中的长期记忆难题。通过块状 SSM 扫描方案、扩散强制训练和帧局部注意力等策略,模型在 Memory Maze 和 Minecraft 等数据集上表现出色,能够在不牺牲计算效率的前提下保持远距离帧的连贯性,为交互式应用提供了可能。
- 提出长上下文状态空间视频世界模型(LSSVWM),结合 SSM 的长距离建模能力和局部注意力的空间连贯性。
- 采用块状 SSM 扫描方案,在保持计算效率的同时显著扩展时间记忆范围。
DeepSeek-V3新论文发布!通过硬件感知协同设计揭示低成本大模型训练的秘密
DeepSeek-V3团队发布了一篇14页的技术论文,由CEO梁文锋合著,探讨了硬件感知模型协同设计以克服扩展挑战。论文详细介绍了多头潜在注意力(MLA)、DeepSeekMoE、FP8训练和节点感知路由等创新,实现了经济高效的大规模训练和推理。
- DeepSeek-V3技术论文揭示了硬件感知协同设计实现低成本大模型训练的策略。
- 关键创新包括用于内存效率的MLA、用于稀疏计算的DeepSeekMoE以及FP8混合精度训练。
DeepSeek发布DeepSeek-Prover-V2:利用递归证明搜索和新基准推进神经定理证明
DeepSeek AI发布了DeepSeek-Prover-V2,一个针对Lean 4形式定理证明的开源大型语言模型。它采用递归证明搜索方法,结合DeepSeek-V3生成训练数据,并通过强化学习优化,在MiniF2F上取得了顶级结果。同时推出了新基准ProverBench。
- DeepSeek-Prover-V2通过递归证明搜索管道,利用DeepSeek-V3生成冷启动训练数据。
- 该模型在MiniF2F测试中达到88.9%的通过率,并在PutnamBench上解决49个问题。
GRPO能高效10倍吗?Kwai AI的SRPO给出肯定答案
Kwai AI提出的SRPO框架将LLM强化学习后训练步骤减少90%,同时在数学和代码领域达到DeepSeek-R1水平。该两阶段强化学习方法结合历史重采样,克服了GRPO的局限性。
- SRPO通过两阶段训练解决数学与代码领域的优化冲突。
- 历史重采样策略提升梯度信号质量,避免性能瓶颈。
智谱AI开源高速GLM模型:推理速度提升8倍,推出Z.ai平台,全球化扩张或为IPO铺路
中国AI公司智谱AI宣布开源其新一代GLM模型系列,包括推理速度达DeepSeek-R1八倍的GLM-Z1、具备自主推理能力的Rumination模型GLM-Z1-Rumination-32B-0414,以及增强智能体能力的GLM-4-32B-0414。同时推出国际平台Z.ai,并通过MaaS平台提供企业级服务。此举展示了其技术实力和全球野心,可能为潜在IPO做准备。
- 开源GLM-Z1推理模型,速度达200 tokens/s,比DeepSeek-R1快8倍
- 推出Rumination模型,具备自主搜索、分析、验证能力
DeepSeek 预告下一代 R2 模型,推出 SPCT 实现推理扩展新方法
DeepSeek AI 发布新论文,提出自原则批评调优(SPCT)方法,旨在增强通用奖励模型在推理阶段的扩展性。同时暗示下一代模型 R2 即将到来,引发业界关注。
- DeepSeek 公布 SPCT 技术,通过拒绝微调和基于规则的在线强化学习,动态生成原则和批评,提升奖励模型的推理扩展能力。
- 论文指出大语言模型范式正从预训练转向后训练,特别是推理阶段,强化学习与 LLM 协同可增强长程规划能力。