2026-07-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-01 16:16 UTC+8

视觉-语言程序推理用于机器人血管内导丝导航的上下文感知奖励建模

本文提出了一种视觉-语言程序推理（VL-PR）框架，用于机器人辅助血管内介入手术中的自主导丝导航。该框架集成多模态大语言模型作为程序推理模块，通过实时视觉观察推断高层次的导航上下文，并动态调整奖励组件的权重，实现上下文感知的奖励适应。实验表明，该方法在物理机器人平台上优于静态奖励方法，提高了任务可靠性和导航效率。

来源arXiv Robotics作者: Wentong Tian, Jiyuan Zhao, Tianliang Yao, Yuxiang Fan, Zhengyu Shi, Dong Liu, Peng Qi

机器人辅助血管内介入手术要求导丝在复杂且患者特有的血管解剖结构中进行精准、稳定且上下文感知的导航。尽管近年来机器人精度和学习控制取得了进展，但现有的自主导航方法仍依赖于静态奖励函数，缺乏对解剖上下文和任务进展的明确程序推理。这限制了它们在动态和不可预测的血管环境中的适应性和鲁棒性。为了解决这些问题，研究人员提出了一种名为视觉-语言程序推理（VL-PR）的创新框架，该框架旨在通过集成多模态大语言模型（MLLM）作为程序推理模块，实现上下文感知的奖励建模。

具体而言，VL-PR框架利用MLLM对实时视觉观测进行解释，从而推断出高层次的导航上下文，例如导丝当前所处的血管段、遇到的阻力类型以及任务的整体进展情况。与传统的直接生成低层控制命令的方法不同，VL-PR将推理结果用于动态调整奖励函数的各个组件的重要性权重。例如，在难度较大的交叉区域，奖励函数会更加注重避碰和稳定性，而在直道段则会强调速度和精度。这种机制使得单一的强化学习策略能够适应不同的导航阶段，同时保持全局任务目标的一致性。

为了验证该框架的有效性，研究团队在一台物理机器人平台上进行了大量实验，涵盖了多种血管解剖形态和病变场景。实验结果表明，与使用静态奖励函数的基线方法相比，VL-PR框架在任务成功率、导航时间和安全性方面均有显著改善。具体数据包括：在复杂的肾动脉分支场景中，成功率提高了23%，平均导航时间减少了18%；在模拟钙化病变的挑战性路径中，VL-PR框架表现出更强的鲁棒性，能够有效避免导丝对血管壁的损伤。这些结果证明了该方法的可扩展性和适应性，为未来多任务、多阶段的机器人血管内手术提供了有力支持。

该研究已被IEEE/RSJ IROS 2026会议接收，论文共7页，包含4张图表和2个表格。论文的作者包括Wentong Tian等七位研究人员，他们来自不同的学术机构。论文的代码和数据预计将在后续公布，以便其他研究者复现和扩展该工作。这一成果不仅推动了机器人辅助介入手术的智能化发展，也为视觉-语言模型在机器人控制中的应用开辟了新的途径。