2026-05-28 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

超越運動基元：基於頭戴式IMU的行為活動識別

本研究提出了一種基於頭戴式慣性測量單元（IMU）的行為級活動識別方法，超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別，構建了包含16萬個樣本的Ego4D資料集，並提出了HiT-HAR層次模型（70.3萬引數），在五類動作和八類場景識別任務上優於現有模型。透過可分離性分析，揭示了頭戴式IMU的觀測極限：移動類行為可靠可觀測，物體轉移和任務操作類需要時間上下文，場景依賴訊號重疊仍是挑戰。結果表明，利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。程式碼和資料集已公開。

來源arXiv Computer Vision作者: Chung-Ta Huang, Leopold Das, Jeffrey Zhou, Faizaan Siddique, Julia Seungjoo Baek, Serena Liu, Andrew Rusli, Todd Y. Zhou, Freddy Yu, Sinclair Hansen, Ziling Hu, Arnav Sharma, Mengyu Wang

智慧AR眼鏡需要持續的行為上下文來提供主動輔助，例如根據使用者正在進行的活動調整顯示資訊或提供提示。然而，其最實用的常開感測器——頭戴式慣性測量單元（IMU）——通常只能檢測行走、站立或靜止等簡單的運動基元，無法區分更復雜的行為。針對這一侷限，哈佛大學等機構的研究人員提出了一種超越運動基元的行為級活動識別方法，相關論文《Beyond Motion Primitives: Behavioral Activity Recognition from Head-Mounted IMU》已發表於2026年5月的arXiv預印本。

研究團隊首先定義了五種平衡AR應用需求與感測器可觀測性的行為類別：移動（如行走、跑步）、物體轉移（如拿取、放置）、任務操作（如打字、組裝）、社互動動（如交談、手勢）和空閒（如靜坐、站立）。這些類別旨在覆蓋常見AR應用場景，同時確保從頭戴式IMU資料中可區分。為了訓練和評估模型，他們從Ego4D資料集中精心篩選並構建了一個包含16萬個樣本的資料集，涵蓋8個活動場景（如烹飪、清潔、購物、辦公等），並引入了四層質量保證框架，包括自動過濾、人工稽核、交叉驗證和專家檢查，以確保資料標註的準確性和可靠性。

在此基礎上，他們提出了HiT-HAR模型，這是一個僅含70.3萬引數的層次化模型。該模型採用層次化架構，先提取區域性時間特徵，再結合全域性場景資訊進行行為分類。實驗表明，HiT-HAR在五類動作識別和八類場景識別任務上均顯著優於此前基於頭戴式IMU的先進模型，如DeepHAR和IMU-Attention。進一步，透過逐類可分離性分析，研究團隊繪製了頭戴式IMU的觀測能力邊界圖：移動類行為（如行走）由於具有獨特的運動模式，可靠可觀測；物體轉移和任務操作類行為雖然運動模式相似，但受益於時間上下文資訊（如序列規律）；而場景依賴的訊號重疊（例如在不同場景下執行相似物體轉移動作）仍是當前方法難以克服的挑戰。

研究結果強調，利用時間上下文和場景結構的架構設計選擇，比單純擴大模型引數規模更為有效。例如，HiT-HAR透過引入時間注意力機制和場景條件分類器，在較低計算成本下取得了更高精度。這種思路為未來AR裝置實現更豐富的上下文感知互動提供了重要啟示，有望推動AR眼鏡從簡單的運動跟蹤向深層次行為理解進化。目前，該研究的程式碼和資料集已在GitHub上公開，供學術界和工業界使用。