EgoTraj:用于多模态预测的真实世界自我中心人类轨迹数据集
研究人员发布了EgoTraj,一个通过Meta Quest Pro记录的自我中心多模态数据集,包含75个真实城市环境中的导航序列,同步RGB视频、头部姿势、眼动追踪和场景注释。该数据集旨在推动人形机器人、可穿戴系统和辅助导航中的轨迹预测研究,并已对多种最先进方法进行了基准测试。
文章情报
要点
- EgoTraj是首个在真实城市环境中使用Meta Quest Pro捕获的自我中心多模态人类轨迹数据集。
- 数据集包含75个序列,提供同步的RGB视频、6自由度头部姿势、3D眼动向量和场景注释。
- 它支持长期、自主导航,参与者多样化,区别于现有数据集。
- 基准测试表明,EgoTraj对于增强现实感知、导航和辅助系统的开发具有重要价值。
为什么重要
这条新闻值得关注,因为EgoTraj是首个在真实城市环境中使用Meta Quest Pro捕获的自我中心多模态人类轨迹数据集。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
人类轨迹预测在人形机器人、可穿戴传感系统和辅助导航等应用中扮演着关键角色,但自我中心视角下的轨迹预测因缺乏真实世界数据集而进展受阻。为弥补这一空白,研究团队推出了EgoTraj,一个使用Meta Quest Pro(MQPro)记录的真实世界自我中心多模态开放数据集。Meta Quest Pro是一款先进的混合现实头显,集成了高精度眼动追踪和六自由度头部追踪功能,能够在自然行走过程中持续采集数据。EgoTraj由75个导航序列组成,由多位MQPro佩戴者在真实的城市环境中采集,涵盖街道、公园、广场等多种场景。每个记录都提供同步的RGB视频,以及连续时间同步的6自由度头部姿势、每帧3D眼动向量和详细的场景注释。与现有数据集相比,EgoTraj的独特之处在于它捕捉了长期、自主的导航行为,参与者年龄、性别和行走习惯各不相同,数据呈现出高度的多样性。为验证数据集的实用性,研究团队对多种最先进的自我中心轨迹预测方法进行了基准测试,包括基于循环神经网络和Transformer架构的模型,并进行了消融研究以分析眼动、场景和运动线索的贡献。实验结果表明,结合眼动和场景信息能够显著提升预测精度,尤其在复杂交叉路口和人群密集区域。EgoTraj在基于增强现实的感知、导航和辅助系统方面展现出重要潜力,例如帮助视障人士规划安全路径或为机器人提供精确的移动预测。该数据集、相关代码以及EgoViz Dashboard已在GitHub上公开,预计将极大推动自我中心视觉和人类行为理解领域的发展,为更智能的人机交互提供坚实的数据基础。