EgoTraj:用於多模態預測的真實世界自我中心人類軌跡數據集
研究人員發佈了EgoTraj,一個通過Meta Quest Pro記錄的自我中心多模態數據集,包含75個真實城市環境中的導航序列,同步RGB視頻、頭部姿勢、眼動追蹤和場景註釋。該數據集旨在推動人形機器人、可穿戴系統和輔助導航中的軌跡預測研究,並已對多種最先進方法進行了基準測試。
文章情報
要點
- EgoTraj是首個在真實城市環境中使用Meta Quest Pro捕獲的自我中心多模態人類軌跡數據集。
- 數據集包含75個序列,提供同步的RGB視頻、6自由度頭部姿勢、3D眼動向量和場景註釋。
- 它支持長期、自主導航,參與者多樣化,區別於現有數據集。
- 基準測試表明,EgoTraj對於增強現實感知、導航和輔助系統的開發具有重要價值。
為甚麼重要
這條新聞值得關注,因為EgoTraj是首個在真實城市環境中使用Meta Quest Pro捕獲的自我中心多模態人類軌跡數據集。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
人類軌跡預測在人形機器人、可穿戴傳感系統和輔助導航等應用中扮演着關鍵角色,但自我中心視角下的軌跡預測因缺乏真實世界數據集而進展受阻。為彌補這一空白,研究團隊推出了EgoTraj,一個使用Meta Quest Pro(MQPro)記錄的真實世界自我中心多模態開放數據集。Meta Quest Pro是一款先進的混合現實頭顯,集成了高精度眼動追蹤和六自由度頭部追蹤功能,能夠在自然行走過程中持續採集數據。EgoTraj由75個導航序列組成,由多位MQPro佩戴者在真實的城市環境中採集,涵蓋街道、公園、廣場等多種場景。每個記錄都提供同步的RGB視頻,以及連續時間同步的6自由度頭部姿勢、每幀3D眼動向量和詳細的場景註釋。與現有數據集相比,EgoTraj的獨特之處在於它捕捉了長期、自主的導航行為,參與者年齡、性別和行走習慣各不相同,數據呈現出高度的多樣性。為驗證數據集的實用性,研究團隊對多種最先進的自我中心軌跡預測方法進行了基準測試,包括基於循環神經網絡和Transformer架構的模型,並進行了消融研究以分析眼動、場景和運動線索的貢獻。實驗結果表明,結合眼動和場景信息能夠顯著提升預測精度,尤其在複雜交叉路口和人羣密集區域。EgoTraj在基於增強現實的感知、導航和輔助系統方面展現出重要潛力,例如幫助視障人士規劃安全路徑或為機器人提供精確的移動預測。該數據集、相關代碼以及EgoViz Dashboard已在GitHub上公開,預計將極大推動自我中心視覺和人類行為理解領域的發展,為更智能的人機交互提供堅實的數據基礎。