μ₀:一種可擴充套件的3D互動軌跡世界模型
本文介紹μ₀,一種基於3D軌跡的可擴充套件世界模型,透過預測物體、工具、手等互動點的平滑3D軌跡,避免了畫素重建和動作標籤依賴。該系統利用TraceExtract自動從影片中提取3D監督訊號,結合視覺-語言骨幹網路和軌跡專家模組進行預訓練。實驗表明,μ₀在2D和3D軌跡預測上優於基線方法,且凍結後的μ₀可與動作專家結合用於下游機器人任務,效能媲美使用動作監督的VLA模型。
來自韓國科學技術院(KAIST)等機構的研究人員提出了μ₀,一種基於3D互動軌跡的可擴充套件世界模型,旨在解決機器人學習中的可擴充套件性問題。傳統方法要麼依賴畫素級影片預測,消耗大量計算資源重建外觀細節,要麼需要具身特定的動作標籤,這嚴重限制了模型的泛化能力。μ₀另闢蹊徑,透過預測互動點(如物體、工具、手以及接觸區域)的3D軌跡,建立了一種緊湊且與形態無關的運動介面,從而避免了上述兩種方法的弊端。
為了從海量的無標籤影片中學習,研究團隊開發了TraceExtract系統。該系統能夠自動提取3D監督訊號:首先從影片幀中選取關鍵點,然後構建全域性對齊的軌跡,最後將運動片段與分層語言描述相關聯。這些自動生成的監督資料用於預訓練μ₀。在預訓練階段,μ₀結合了預訓練的視覺-語言骨幹網路和模組化的軌跡專家模組。軌跡專家將每個查詢表示為B樣條控制點,並預測未來的軌跡點。
實驗結果表明,μ₀在2D和3D軌跡預測任務上均優於現有的基線方法,包括專門的軌跡預測模型和基於token化的視覺語言模型(VLM)變體。更令人矚目的是,由於μ₀在預訓練後可以凍結且保持可複用性,它能夠與下游的動作專家模型配對,用於具體機器人形態的操控策略。儘管μ₀的預訓練階段完全沒有使用任何動作標籤,基於其軌跡條件學習的策略在多個操控任務上達到了與使用動作監督的視覺-語言-動作(VLA)模型(如π₀)競爭的效能。這充分驗證了3D軌跡作為一種跨形態操控的可擴充套件且可遷移的表示。
該研究為機器人學習提供了一種新的正規化:透過預測抽象的互動軌跡而非具體的動作,實現更高效的知識遷移和模型複用。未來,μ₀有望與更多模態的資料結合,進一步提升機器人對複雜環境的理解能力。該論文已被收錄於arXiv(編號2606.13769),相關程式碼和模型將陸續開源。