2026-06-12站内改写1 分钟阅读更新: 2026-06-12

EWAM：一种用于具身智能中闭环在线自适应的增强世界动作模型

EWAM是一种基于冻结核Cosmos3骨干网络的闭环在线自适应架构，通过推理时协同推理机制（包含四个轻量级神经层）实现零样本任务适应，无需微调或额外演示数据，显著降低新任务布局所需的部署数据量。

来源arXiv Robotics作者: Xin Zhou, Cong Miao

近日，研究团队在arXiv上提交了一篇题为“EWAM: An Enhanced World Action Model for Closed-Loop Online Adaptation in Embodied Intelligence”的论文（编号：2606.12690），提出了一种名为增强世界动作模型（EWAM）的新型闭环在线自适应架构。该架构基于一个预训练且完全冻结的Cosmos3骨干网络，通过推理时协同推理机制，实现了在未知环境中的零样本任务适应。论文由Xin Zhou等人于2026年6月10日提交，聚焦于机器人学和人工智能领域。

EWAM的核心创新在于其推理时模块，该模块由四个轻量级神经层组成，并深度集成到Cosmos3的前向传播路径中。具体而言，神经经验记忆层嵌入在扩散变换器（Diffusion Transformer, DiT）的中间层，负责提供与当前任务相关的执行上下文，使模型能够利用历史经验。神经异常检测层位于状态预测头之后，实时监测预测状态与实际环境状态之间的偏差，从而及时发现执行过程中的异常。神经策略路由层根据异常检测的严重程度，动态选择三种策略之一：直接执行生成的行动、进行保守的重规划以调整计划，或触发回滚恢复机制以回到之前的稳定状态。最后，神经动作校正层利用执行过程中收集的诊断信息，对生成的动作块进行精细化调整，以提高行动精度。

与简单的特征融合不同，这些模块以可微分的方式与Cosmos3的梯度流交互，仅最终的路由决策采用离散监督信号。这种设计使得模型能够在无需微调骨干网络或引入额外演示数据的情况下，适应新的任务布局。实验完全在零样本协议下进行，结果显示EWAM显著减少了适应新环境所需的部署数据量，展现了其在机器人操作及其他具身智能任务中的巨大潜力。这项研究为在资源受限场景下实现高效的自适应提供了新的思路，有望推动具身智能系统在更广泛的实际应用中落地。