AI News HubLIVE
公开文章 11采集文章 11可信度 82刷新频率 60 分钟
健康状态 自动暂停来源类型 研究原文权限 允许原文最近入库 2026-05-08ID bair-blog运行状态 未启用

Research blog; check individual article license before full text display.

最新公开文章

自适应并行推理:高效推理扩展的下一个范式

自适应并行推理(APR)是一种让模型自主决定何时并行化、并行多少线程以及如何协调的新范式。本文详细分析了APR的动机、方法、训练策略和评估,讨论了其与固定并行方法的区别,并提出了未来研究方向。

  • APR使模型能够动态分配计算资源,在顺序与并行推理之间自适应切换。
  • 与Tree-of-Thoughts和Best-of-N等固定并行方法相比,APR避免了冗余计算并无需领域特定启发式。
站内正文

基于梯度的世界模型长时域规划

GRASP是一种新的基于梯度的规划器,用于学习动力学(世界模型),通过将轨迹提升到虚拟状态实现并行优化、向状态迭代添加随机性进行探索,并重塑梯度以避免高维视觉模型中脆弱的状态输入梯度。该方法使长时域规划变得更加实用。

  • GRASP通过虚拟状态提升实现并行优化,显著加速长时域规划。
  • 通过向状态注入高斯噪声促进探索,避免陷入局部最优。
站内正文

大规模识别LLM中的交互作用

本文介绍了SPEX和ProxySPEX算法,它们能从特征归因、数据归因和机制可解释性三个视角高效识别大规模语言模型中的关键交互作用。这些算法利用稀疏性、低阶性和层次性等结构特性,通过较少的消融实验发现影响模型行为的重要特征、训练数据和内部组件之间的交互,在长上下文、数据集和模型组件分析中展现了显著效果。

  • SPEX利用稀疏性和低阶性将交互发现转化为稀疏恢复问题,显著降低计算成本。
  • ProxySPEX利用层次性进一步减少约10倍消融次数。
站内正文

基于信息驱动的成像系统设计

研究人员开发了一种基于互信息的成像系统评估与优化框架,在四个成像领域预测系统性能,并实现无需任务特定解码器的高效设计。

  • 互信息量化测量中的有用信息量,统一传统指标如分辨率与信噪比。
  • 该方法利用已知噪声模型和学习分布,直接从噪声测量中估计信息。
站内正文

无需时序差分的强化学习:分治策略的突破

本文介绍了一种基于分治范式的新型强化学习算法——Transitive RL(TRL),它完全摒弃了传统的时序差分学习,通过递归分割轨迹实现对长程任务的强扩展性。在OGBench最具挑战性的任务上,TRL达到了最优性能,且无需手动调整n步TD的超参数。

  • 提出基于分治策略的强化学习算法TRL,替代传统的时序差分学习。
  • TRL通过递归分割轨迹,将贝尔曼递归次数从线性降低为对数级别,有效处理长程任务。
站内正文

word2vec到底学到了什么?

伯克利AI研究团队提出了一种新理论,揭示了word2vec的学习过程:它本质上是无权重最小二乘矩阵分解,最终表示等同于PCA。模型从小初始化开始,逐步学习正交线性子空间,每个子空间对应一个可解释的概念。该理论预测了学习特征的封闭形式,并与实验高度吻合。

  • word2vec的学习可以简化为无加权最小二乘矩阵分解,最终嵌入由PCA给出。
  • 从小的初始化开始,word2vec以离散步骤依次学习正交线性子空间。
站内正文

全身条件的第一人称视频预测

BAIR团队提出PEVA模型,通过全身动作条件预测第一人称视频。该模型利用自回归条件扩散变换器,在Nymeria数据集上训练,能够模拟原子动作、长期视频生成及视觉规划。

  • PEVA以全身运动姿态为输入,预测第一人称视角的未来视频帧。
  • 采用48维动作空间,编码全身关节运动。
站内正文

使用结构化查询(StruQ)和偏好优化(SecAlign)防御提示注入攻击

针对LLM集成应用中OWASP排名第一的提示注入威胁,BAIR研究人员提出了两种无需额外计算或人工成本的微调防御方法:StruQ和SecAlign。StruQ通过结构化指令微调使LLM学会忽略数据部分的注入指令,SecAlign通过特殊偏好优化进一步将优化攻击成功率降至8%以下,且不损失模型通用性能。

  • 提示注入是LLM集成应用的头号安全威胁
  • StruQ通过结构化指令微调将无优化攻击成功率降至约0%
站内正文

重新利用蛋白质折叠模型进行潜扩散生成

PLAID是一种多模态生成模型,通过学习蛋白质折叠模型的潜空间,同时生成蛋白质的一维序列和三维结构。它仅需序列数据训练,并支持功能与生物体提示,解决了全原子生成、生物体特异性和控制规范等实际问题。

  • PLAID利用蛋白质折叠模型的潜空间进行扩散生成,实现序列与结构的同时生成。
  • 仅需序列数据训练,利用序列数据库规模优势(比结构数据库大2-4个数量级)。
站内正文

扩展强化学习用于交通平滑:100辆自动驾驶汽车的高速公路部署

我们部署了100辆强化学习(RL)控制的车辆进入高峰时段的高速公路交通,以缓解拥堵并降低所有人的燃油消耗。通过数据驱动的模拟训练,RL智能体学会了在保持通行能力和安全性的同时最大化能效。实地测试表明,少量经过良好控制的自动驾驶汽车(AV)即可显著改善交通流和燃油效率,节省高达15-20%的能量。

  • 使用100辆RL控制的车辆在I-24高速公路进行大规模实地测试,旨在平滑“走走停停”的波浪。
  • RL控制器仅依靠车载雷达和自身速度等本地传感器信息,实现去中心化操作。
站内正文

通过背景故事集为语言模型创建虚拟人格

BAIR研究团队提出Anthology方法,通过为大型语言模型生成详细的人物背景故事,使其能够模拟具有代表性、一致性和多样性的虚拟人格。该方法在逼近真实人类调查数据方面优于传统条件设置,为社会科学研究提供了成本效益高的替代方案。

  • Anthology利用自然主义背景故事条件化LLM,生成更逼真的虚拟人格。
  • 与仅基于人口统计变量的方法相比,Anthology在回应分布和一致性上更接近真实人类样本。
站内正文

全部来源