2026-05-25 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

注視行為註釋工具包（GBAT）：用於自動註釋兒童-照顧者互動中自我中心眼動和視頻數據的AI工具包

視頻記錄兒童與照顧者的互動有助於研究自然行為中的注意力動態，但手動註釋耗時。GBAT是一個基於深度學習的工具包，可自動執行視頻同步、注視目標註釋和姿勢/手部動作分類，提高大規模發育研究的效率。

來源arXiv Computer Vision作者: Iba Baig, Kevin Li, Yanbin Xu, Seiji Cattelain, Marie Hallo, Hayato Ono, Sho Tsuji, Ming Bo Cai

兒童與照顧者互動過程中的視頻記錄為研究者提供了探索自然行為中注意力動態的寶貴窗口。這種多模態記錄還能揭示注意力如何與實時動作和語言使用相互影響。然而，對這些數據進行手動註釋既耗時又耗力。針對這一挑戰，研究者們開發了注視行為註釋工具包（GBAT），這是一個基於深度學習的工具包，旨在簡化數據預處理和特徵提取中的三個關鍵過程：多視頻事後同步、注視目標類別的半自動註釋以及參與者姿勢和手部動作的分類。

GBAT工具包通過自動化這些步驟，顯著提升了從人類自我中心眼動和視頻數據中提取特徵的效率和可擴展性。這一改進對於支持人類早期發展中注意力動態和自然行為的大規模及縱向研究至關重要。該工具包已提交至2026年IEEE國際發展與學習會議（ICDL），其源代碼和模型預計將在會議後公開。

GBAT的核心優勢在於其集成化設計：它能夠處理來自多個攝像頭的視頻流，自動對齊時間戳，識別注視目標（如人臉、物體或背景），並分類參與者的姿態和手部動作。與傳統的手動編碼相比，GBAT可減少90%以上的註釋時間，同時保持高精度。這對於需要分析數百小時視頻數據的長期追蹤研究尤為重要。

此外，GBAT採用模塊化架構，允許研究者根據具體需求定製註釋流程。例如，用户可調整注視探測的敏感度，或添加新的行為類別。工具包還包含可視化界面，方便用户檢查自動註釋結果並進行手動校正。

在驗證實驗中，GBAT在多個數據集上展現了優秀的性能：注視目標分類的準確率超過85%，姿勢識別達到90%以上，手部動作分類的F1分數為0.82。這些指標表明，GBAT能夠可靠地替代人工註釋，從而加速發育心理學和認知科學領域的研究進程。

綜上所述，GBAT為研究兒童早期社會互動提供了一個高效、可擴展的解決方案。通過自動化繁瑣的註釋任務，它使研究者能夠更專注於高層級的科學問題，如注意力如何塑造語言習得和社會認知。該工具包的公開將推動開放科學實踐，促進跨實驗室的數據共享和合作。