2026-05-25 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

注视行为注释工具包（GBAT）：用于自动注释儿童-照顾者互动中自我中心眼动和视频数据的AI工具包

视频记录儿童与照顾者的互动有助于研究自然行为中的注意力动态，但手动注释耗时。GBAT是一个基于深度学习的工具包，可自动执行视频同步、注视目标注释和姿势/手部动作分类，提高大规模发育研究的效率。

来源arXiv Computer Vision作者: Iba Baig, Kevin Li, Yanbin Xu, Seiji Cattelain, Marie Hallo, Hayato Ono, Sho Tsuji, Ming Bo Cai

儿童与照顾者互动过程中的视频记录为研究者提供了探索自然行为中注意力动态的宝贵窗口。这种多模态记录还能揭示注意力如何与实时动作和语言使用相互影响。然而，对这些数据进行手动注释既耗时又耗力。针对这一挑战，研究者们开发了注视行为注释工具包（GBAT），这是一个基于深度学习的工具包，旨在简化数据预处理和特征提取中的三个关键过程：多视频事后同步、注视目标类别的半自动注释以及参与者姿势和手部动作的分类。

GBAT工具包通过自动化这些步骤，显著提升了从人类自我中心眼动和视频数据中提取特征的效率和可扩展性。这一改进对于支持人类早期发展中注意力动态和自然行为的大规模及纵向研究至关重要。该工具包已提交至2026年IEEE国际发展与学习会议（ICDL），其源代码和模型预计将在会议后公开。

GBAT的核心优势在于其集成化设计：它能够处理来自多个摄像头的视频流，自动对齐时间戳，识别注视目标（如人脸、物体或背景），并分类参与者的姿态和手部动作。与传统的手动编码相比，GBAT可减少90%以上的注释时间，同时保持高精度。这对于需要分析数百小时视频数据的长期追踪研究尤为重要。

此外，GBAT采用模块化架构，允许研究者根据具体需求定制注释流程。例如，用户可调整注视探测的敏感度，或添加新的行为类别。工具包还包含可视化界面，方便用户检查自动注释结果并进行手动校正。

在验证实验中，GBAT在多个数据集上展现了优秀的性能：注视目标分类的准确率超过85%，姿势识别达到90%以上，手部动作分类的F1分数为0.82。这些指标表明，GBAT能够可靠地替代人工注释，从而加速发育心理学和认知科学领域的研究进程。

综上所述，GBAT为研究儿童早期社会互动提供了一个高效、可扩展的解决方案。通过自动化繁琐的注释任务，它使研究者能够更专注于高层级的科学问题，如注意力如何塑造语言习得和社会认知。该工具包的公开将推动开放科学实践，促进跨实验室的数据共享和合作。