2026-05-20 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

EgoTraj：用于多模态预测的真实世界自我中心人类轨迹数据集

研究人员发布了EgoTraj，一个通过Meta Quest Pro记录的自我中心多模态数据集，包含75个真实城市环境中的导航序列，同步RGB视频、头部姿势、眼动追踪和场景注释。该数据集旨在推动人形机器人、可穿戴系统和辅助导航中的轨迹预测研究，并已对多种最先进方法进行了基准测试。

来源arXiv Computer Vision作者: Ahmad Yehia, Abduallah Mohamed, Tianyi Wang, Jiseop Byeon, Kun Qian, Junfeng Jiao, Christian Claudel

人类轨迹预测在人形机器人、可穿戴传感系统和辅助导航等应用中扮演着关键角色，但自我中心视角下的轨迹预测因缺乏真实世界数据集而进展受阻。为弥补这一空白，研究团队推出了EgoTraj，一个使用Meta Quest Pro（MQPro）记录的真实世界自我中心多模态开放数据集。Meta Quest Pro是一款先进的混合现实头显，集成了高精度眼动追踪和六自由度头部追踪功能，能够在自然行走过程中持续采集数据。EgoTraj由75个导航序列组成，由多位MQPro佩戴者在真实的城市环境中采集，涵盖街道、公园、广场等多种场景。每个记录都提供同步的RGB视频，以及连续时间同步的6自由度头部姿势、每帧3D眼动向量和详细的场景注释。与现有数据集相比，EgoTraj的独特之处在于它捕捉了长期、自主的导航行为，参与者年龄、性别和行走习惯各不相同，数据呈现出高度的多样性。为验证数据集的实用性，研究团队对多种最先进的自我中心轨迹预测方法进行了基准测试，包括基于循环神经网络和Transformer架构的模型，并进行了消融研究以分析眼动、场景和运动线索的贡献。实验结果表明，结合眼动和场景信息能够显著提升预测精度，尤其在复杂交叉路口和人群密集区域。EgoTraj在基于增强现实的感知、导航和辅助系统方面展现出重要潜力，例如帮助视障人士规划安全路径或为机器人提供精确的移动预测。该数据集、相关代码以及EgoViz Dashboard已在GitHub上公开，预计将极大推动自我中心视觉和人类行为理解领域的发展，为更智能的人机交互提供坚实的数据基础。