2026-06-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

面向真实世界教育应用的人-物交互检测器诊断

人-物交互（HOI）识别在复杂教育环境中自动分析学生行为至关重要。虽然最先进的HOI检测器在基准数据集上表现良好，但在真实训练环境中因领域特定物体、遮挡和复杂视觉条件而性能下降。本文提出一个诊断驱动框架，结合三元组级HOI错误分类和误差因素归因分析，应用于重症监护空运团队（CCATT）混合现实医学训练。通过分析HOI失败模式及其原因，开发了诊断导向的优化策略，将预训练CDN模型的宏F1分数从48.6提升至90.2。结果突显了详细诊断分析在指导HOI模型针对性适应中的价值。

来源arXiv Computer Vision作者: Divya Mereddy, Ashwin Tudur Sadashiva, Marcos Quinones-Grueiro, Gautam Biswas

在复杂教育环境中，自动分析学生行为对于评估学习效果和优化教学策略具有重要意义。人-物交互（HOI）识别技术能够检测学生与教学工具、设备之间的互动，从而提供行为洞察。然而，尽管最先进的HOI检测器在标准基准数据集上表现出色，当应用于真实世界训练场景时，其性能往往大幅下降。这一现象归因于领域特定物体、严重遮挡以及多变的光照和视角条件。

为了解决这一问题，研究人员提出了一种诊断驱动的框架，该框架结合了三元组级HOI错误分类与误差因素归因分析。三元组级错误分类将HOI检测错误细分为三个维度：物体识别错误、交互识别错误以及两者组合错误。误差因素归因则进一步分析导致这些错误的具体原因，例如物体尺度、遮挡程度、运动模糊等。该框架在重症监护空运团队（CCATT）混合现实医学训练数据集上进行了验证。CCATT训练场景涉及大量医疗设备操作，对HOI检测的准确性要求极高。

基于对HOI失败模式的深入分析，研究团队开发了一种诊断导向的优化策略。该策略通过识别目标领域的关键误差因素，对预训练的HOI模型（如CDN模型）进行针对性微调，而非简单地在通用数据上重新训练。实验结果表明，通过这种诊断引导的优化方法，预训练CDN模型在CCATT数据集上的宏F1分数从48.6大幅提升至90.2，性能接近甚至超越完全在目标领域训练的新模型。

这项研究的重要意义在于，它不仅提供了一种提升HOI检测器在真实教育环境中鲁棒性的实用方法，更强调了诊断分析在模型适应过程中的核心作用。未来，该框架可扩展至更多教育场景，如课堂互动分析、实验室安全监控等，为智能教育系统的开发提供技术支持。