2026-06-17站内改写1 分钟阅读更新: 2026-06-17

通过数字孪生表示的强化学习训练大语言模型进行推理密集型手术视频问答

现有手术视频问答方法将视频压缩为离散令牌并耦合感知与推理，限制了多步推理能力。本文提出强化学习框架，使大语言模型在手术基础模型构建的数字孪生表示上解耦感知与推理，引入分层表示和新型奖励函数，并推出结肠镜基准REAL-Colon-Reason，在多个基准上达到最优性能。

来源arXiv Computer Vision作者: Yiqing Shen, Han Zhang, Mathias Unberath

手术视频问答（Surgical VideoQA）是一个极具挑战性的研究领域，它要求系统能够对手术视频中的内容进行跨语义、空间和时间维度的多步推理。然而，现有的主流方法通常将视频压缩为离散的令牌表示，并将视觉感知与推理过程紧密耦合在一起。这种设计虽然简化了处理流程，但却破坏了视频中原本连续的时空关系，从而严重限制了模型的多步推理能力。为了解决这一根本性缺陷，来自研究团队的最新论文提出了一种基于强化学习（RL）的创新框架。该框架的核心思想是利用手术基础模型构建数字孪生表示（digital twin representations），然后在大语言模型（LLM）中解耦感知与推理过程。具体来说，模型不再直接从原始视频帧进行推理，而是操作在数字孪生表示之上，这些表示能够保留更丰富的时空结构信息。此外，研究团队还引入了层次化的表示结构，包括帧级、时间窗口级和手术过程级，并与概率性不确定性估计相结合，以应对手术视频中的复杂动态和噪声。为了有效地训练模型，他们设计了一种新颖的奖励函数，该函数不仅检查输出格式的正确性，还通过临床合理性评估和不确定性感知的校准来评估答案的准确性。为了验证所提出方法的性能，团队创建了一个新的结肠镜手术视频问答基准数据集REAL-Colon-Reason，该数据集包含2000个问答对，涵盖三个不同的复杂度级别。实验结果显示，该方法在REAL-Colon-Reason以及两个现有的手术视频问答基准（REAL-Colon-VQA和EndoVis18-VQA）上均取得了最先进的性能。这项研究不仅为手术视频理解提供了新的技术路径，也为未来智能辅助手术系统的发展奠定了重要基础。