AI News HubLIVE
站内改写1 分钟阅读

基于动作驱动数字孪生的手术室视频推理文本检索

本文提出OR3方法,通过将手术室视频片段转换为动作驱动数字孪生(ActDT),结合大语言模型生成假设性ActDT进行想象式检索,实现隐式查询的文本到视频检索。在276个隐式查询基准上,OR3达到57.6% R@1和77.3% R@5,显著优于现有方法。

来源arXiv Computer Vision作者: Yiqing Shen, Hao Ding, Mathias Unberath

手术室中的文本到视频检索是提升手术安全的关键技术,允许相关人员检索和检查特定事件的记录。然而,最安全关键的事件可能不遵循常见结构,因此检索系统必须能够处理需要推理的隐式查询(例如“剪断前的一步”)。现有方法依赖全局嵌入,无法对这类查询进行推理。为此,来自上海交通大学等机构的研究人员提出了OR3方法,将视频片段转换为动作驱动数字孪生(ActDT),将并发的主体-动作-对象三元组分组到非重叠时间间隔下。与传统使用配对编码器的跨模态匹配不同,OR3采用想象式检索:利用大语言模型(LLM)从查询生成假设性ActDT,然后通过单一编码器进行模态内匹配,该编码器使用针对ActDT定制的硬负样本训练。最后,通过证据驱动的细化步骤,根据与候选片段的差异修正假设ActDT,以捕获程序特定模式。研究团队基于MM-OR数据集构建了基准,包含276个隐式查询(分为四类推理类型)和386个来自机器人膝关节手术的视频片段。实验结果显示,OR3在R@1和R@5上分别达到57.6%和77.3%,远超最强基线。这些结果表明,OR3通过时间动作推理实现了对视觉相似手术视频片段的精细区分。该工作为手术视频分析提供了新的范式,有望在临床培训、手术审计和安全性分析中发挥重要作用。该方法不仅解决了现有方法无法处理隐式推理查询的局限,还通过动作驱动的表示和想象式搜索机制,显著提升了检索的准确性和鲁棒性。未来的工作可以探索将OR3扩展到其他医疗视频领域,以及结合更多模态信息进一步提升性能。