2026-06-17站内改写1 分钟阅读更新: 2026-06-17

基于动作驱动数字孪生的手术室视频推理文本检索

本文提出OR3方法，通过将手术室视频片段转换为动作驱动数字孪生（ActDT），结合大语言模型生成假设性ActDT进行想象式检索，实现隐式查询的文本到视频检索。在276个隐式查询基准上，OR3达到57.6% R@1和77.3% R@5，显著优于现有方法。

来源arXiv Computer Vision作者: Yiqing Shen, Hao Ding, Mathias Unberath

手术室中的文本到视频检索是提升手术安全的关键技术，允许相关人员检索和检查特定事件的记录。然而，最安全关键的事件可能不遵循常见结构，因此检索系统必须能够处理需要推理的隐式查询（例如“剪断前的一步”）。现有方法依赖全局嵌入，无法对这类查询进行推理。为此，来自上海交通大学等机构的研究人员提出了OR3方法，将视频片段转换为动作驱动数字孪生（ActDT），将并发的主体-动作-对象三元组分组到非重叠时间间隔下。与传统使用配对编码器的跨模态匹配不同，OR3采用想象式检索：利用大语言模型（LLM）从查询生成假设性ActDT，然后通过单一编码器进行模态内匹配，该编码器使用针对ActDT定制的硬负样本训练。最后，通过证据驱动的细化步骤，根据与候选片段的差异修正假设ActDT，以捕获程序特定模式。研究团队基于MM-OR数据集构建了基准，包含276个隐式查询（分为四类推理类型）和386个来自机器人膝关节手术的视频片段。实验结果显示，OR3在R@1和R@5上分别达到57.6%和77.3%，远超最强基线。这些结果表明，OR3通过时间动作推理实现了对视觉相似手术视频片段的精细区分。该工作为手术视频分析提供了新的范式，有望在临床培训、手术审计和安全性分析中发挥重要作用。该方法不仅解决了现有方法无法处理隐式推理查询的局限，还通过动作驱动的表示和想象式搜索机制，显著提升了检索的准确性和鲁棒性。未来的工作可以探索将OR3扩展到其他医疗视频领域，以及结合更多模态信息进一步提升性能。