μ₀:一種可擴展的3D交互軌跡世界模型
本文介紹μ₀,一種基於3D軌跡的可擴展世界模型,通過預測物體、工具、手等交互點的平滑3D軌跡,避免了像素重建和動作標籤依賴。該系統利用TraceExtract自動從視頻中提取3D監督信號,結合視覺-語言骨幹網絡和軌跡專家模塊進行預訓練。實驗表明,μ₀在2D和3D軌跡預測上優於基線方法,且凍結後的μ₀可與動作專家結合用於下游機器人任務,性能媲美使用動作監督的VLA模型。
來自韓國科學技術院(KAIST)等機構的研究人員提出了μ₀,一種基於3D交互軌跡的可擴展世界模型,旨在解決機器人學習中的可擴展性問題。傳統方法要麼依賴像素級視頻預測,消耗大量計算資源重建外觀細節,要麼需要具身特定的動作標籤,這嚴重限制了模型的泛化能力。μ₀另闢蹊徑,通過預測交互點(如物體、工具、手以及接觸區域)的3D軌跡,建立了一種緊湊且與形態無關的運動接口,從而避免了上述兩種方法的弊端。
為了從海量的無標籤視頻中學習,研究團隊開發了TraceExtract系統。該系統能夠自動提取3D監督信號:首先從視頻幀中選取關鍵點,然後構建全局對齊的軌跡,最後將運動片段與分層語言描述相關聯。這些自動生成的監督數據用於預訓練μ₀。在預訓練階段,μ₀結合了預訓練的視覺-語言骨幹網絡和模塊化的軌跡專家模塊。軌跡專家將每個查詢表示為B樣條控制點,並預測未來的軌跡點。
實驗結果表明,μ₀在2D和3D軌跡預測任務上均優於現有的基線方法,包括專門的軌跡預測模型和基於token化的視覺語言模型(VLM)變體。更令人矚目的是,由於μ₀在預訓練後可以凍結且保持可複用性,它能夠與下游的動作專家模型配對,用於具體機器人形態的操控策略。儘管μ₀的預訓練階段完全沒有使用任何動作標籤,基於其軌跡條件學習的策略在多個操控任務上達到了與使用動作監督的視覺-語言-動作(VLA)模型(如π₀)競爭的性能。這充分驗證了3D軌跡作為一種跨形態操控的可擴展且可遷移的表示。
該研究為機器人學習提供了一種新的範式:通過預測抽象的交互軌跡而非具體的動作,實現更高效的知識遷移和模型複用。未來,μ₀有望與更多模態的數據結合,進一步提升機器人對複雜環境的理解能力。該論文已被收錄於arXiv(編號2606.13769),相關代碼和模型將陸續開源。