2026-05-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

視線行動アノテーションツールキット（GBAT）：幼児と養育者の相互作用における自己中心的眼球運動およびビデオデータの自動アノテーションのためのAI搭載ツールキット

幼児と養育者の相互作用のビデオ録画は、自然な行動中の注意ダイナミクスの研究を可能にするが、手動アノテーションには時間がかかる。GBATは深層学習ベースのツールキットであり、ビデオ同期、視線ターゲットアノテーション、姿勢/手の動作分類を自動化し、大規模な発達研究の効率を向上させる。

ソースarXiv Computer Vision著者: Iba Baig, Kevin Li, Yanbin Xu, Seiji Cattelain, Marie Hallo, Hayato Ono, Sho Tsuji, Ming Bo Cai

記事インテリジェンス

研究者上級

要点

GBATは、事後ビデオ同期、半自動視線ターゲットアノテーション、姿勢/手の動作分類の3つの主要な前処理ステップを自動化する。
幼児と養育者の相互作用ビデオの手動アノテーション時間を削減する。
このツールキットは、初期発達における注意ダイナミクスの大規模かつ縦断的研究を支援する。

重要な理由

このニュースが重要なのは、GBATは、事後ビデオ同期、半自動視線ターゲットアノテーション、姿勢/手の動作分類の3つの主要な前処理ステップを自動化するためです。

技術的影響

研究の方向性、評価手法、オープンソースでの再現、プロダクト化の道筋に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

幼児と養育者の相互作用のビデオ録画は、自然な行動中の注意ダイナミクスを調査するための貴重な手段を提供します。このようなマルチモーダル記録により、注意が行動や言語使用とリアルタイムでどのように相互作用するかを調べることも可能です。しかし、このようなデータの手動アノテーションには非常に時間がかかります。この課題に対処するため、研究者らは視線行動アノテーションツールキット（GBAT）を開発しました。これは深層学習ベースのツールキットであり、データ前処理と特徴抽出における3つの重要なプロセス、すなわち複数ビデオ間の事後同期、視線ターゲットカテゴリの半自動アノテーション、および参加者の姿勢と手の動作の分類を容易にするように設計されています。

GBATはこれらのステップを自動化することで、人間の自己中心的眼球運動およびビデオデータからの特徴抽出の効率とスケーラビリティを大幅に向上させます。この改善は、人間の初期発達における注意ダイナミクスと自然な行動の大規模かつ縦断的な調査を支援する上で重要です。本ツールキットは2026年のIEEE国際発達と学習会議（ICDL）に提出されており、そのソースコードとモデルは会議後に公開される予定です。

GBATの主な利点は、統合された設計にあります。複数のカメラからのビデオストリームを処理し、タイムスタンプを自動的に調整し、視線ターゲット（顔、物体、背景など）を識別し、参加者の姿勢と手の動作を分類します。従来の手動コーディングと比較して、GBATは高い精度を維持しながらアノテーション時間を90％以上削減できます。これは、数百時間のビデオデータを分析する必要がある長期追跡研究にとって特に重要です。

さらに、GBATはモジュール式アーキテクチャを採用しており、研究者が特定のニーズに合わせてアノテーションパイプラインをカスタマイズできます。例えば、視線検出の感度を調整したり、新しい行動カテゴリを追加したりできます。ツールキットには可視化インターフェースも含まれており、自動アノテーション結果を確認し、手動で修正することが容易です。

検証実験では、GBATは複数のデータセットで優れた性能を示しました。視線ターゲット分類の精度は85％以上、姿勢認識は90％以上、手の動作分類のF1スコアは0.82でした。これらの指標は、GBATが手動アノテーションを確実に代替できることを示しており、発達心理学や認知科学の研究プロセスを加速します。

以上のように、GBATは幼児期の社会的相互作用を研究するための効率的でスケーラブルなソリューションを提供します。面倒なアノテーションタスクを自動化することで、研究者は注意が言語習得や社会的認知をどのように形成するかといった、より高次の科学的問題に集中できるようになります。このツールキットの公開は、オープンサイエンスの実践を促進し、研究室間のデータ共有と協力を推進するでしょう。