自适应并行推理:高效推理扩展的下一个范式
自适应并行推理(APR)是一种让模型自主决定何时并行化、并行多少线程以及如何协调的新范式。本文详细分析了APR的动机、方法、训练策略和评估,讨论了其与固定并行方法的区别,并提出了未来研究方向。
- APR使模型能够动态分配计算资源,在顺序与并行推理之间自适应切换。
- 与Tree-of-Thoughts和Best-of-N等固定并行方法相比,APR避免了冗余计算并无需领域特定启发式。
Research blog; check individual article license before full text display.
自适应并行推理(APR)是一种让模型自主决定何时并行化、并行多少线程以及如何协调的新范式。本文详细分析了APR的动机、方法、训练策略和评估,讨论了其与固定并行方法的区别,并提出了未来研究方向。
GRASP是一种新的基于梯度的规划器,用于学习动力学(世界模型),通过将轨迹提升到虚拟状态实现并行优化、向状态迭代添加随机性进行探索,并重塑梯度以避免高维视觉模型中脆弱的状态输入梯度。该方法使长时域规划变得更加实用。
本文介绍了SPEX和ProxySPEX算法,它们能从特征归因、数据归因和机制可解释性三个视角高效识别大规模语言模型中的关键交互作用。这些算法利用稀疏性、低阶性和层次性等结构特性,通过较少的消融实验发现影响模型行为的重要特征、训练数据和内部组件之间的交互,在长上下文、数据集和模型组件分析中展现了显著效果。
研究人员开发了一种基于互信息的成像系统评估与优化框架,在四个成像领域预测系统性能,并实现无需任务特定解码器的高效设计。
本文介绍了一种基于分治范式的新型强化学习算法——Transitive RL(TRL),它完全摒弃了传统的时序差分学习,通过递归分割轨迹实现对长程任务的强扩展性。在OGBench最具挑战性的任务上,TRL达到了最优性能,且无需手动调整n步TD的超参数。
伯克利AI研究团队提出了一种新理论,揭示了word2vec的学习过程:它本质上是无权重最小二乘矩阵分解,最终表示等同于PCA。模型从小初始化开始,逐步学习正交线性子空间,每个子空间对应一个可解释的概念。该理论预测了学习特征的封闭形式,并与实验高度吻合。
BAIR团队提出PEVA模型,通过全身动作条件预测第一人称视频。该模型利用自回归条件扩散变换器,在Nymeria数据集上训练,能够模拟原子动作、长期视频生成及视觉规划。
针对LLM集成应用中OWASP排名第一的提示注入威胁,BAIR研究人员提出了两种无需额外计算或人工成本的微调防御方法:StruQ和SecAlign。StruQ通过结构化指令微调使LLM学会忽略数据部分的注入指令,SecAlign通过特殊偏好优化进一步将优化攻击成功率降至8%以下,且不损失模型通用性能。
PLAID是一种多模态生成模型,通过学习蛋白质折叠模型的潜空间,同时生成蛋白质的一维序列和三维结构。它仅需序列数据训练,并支持功能与生物体提示,解决了全原子生成、生物体特异性和控制规范等实际问题。
我们部署了100辆强化学习(RL)控制的车辆进入高峰时段的高速公路交通,以缓解拥堵并降低所有人的燃油消耗。通过数据驱动的模拟训练,RL智能体学会了在保持通行能力和安全性的同时最大化能效。实地测试表明,少量经过良好控制的自动驾驶汽车(AV)即可显著改善交通流和燃油效率,节省高达15-20%的能量。
BAIR研究团队提出Anthology方法,通过为大型语言模型生成详细的人物背景故事,使其能够模拟具有代表性、一致性和多样性的虚拟人格。该方法在逼近真实人类调查数据方面优于传统条件设置,为社会科学研究提供了成本效益高的替代方案。