BIFROST:橋接不變特徵表示實現觀測空間的模擬到現實遷移
BIFROST是一種新的模擬到現實遷移方法,透過跨域雙模擬目標從原始觀測中學習不變特徵,使策略能夠從模擬零樣本遷移到現實。在視覺和動力學域差距的任務中,它優於現有方法。
在機器人策略學習的模擬到現實遷移中,模擬與真實環境之間的差異一直是一個核心挑戰。現有的方法通常透過獨立的適應模組分別處理視覺或動力學的不匹配,當兩種差異同時存在時,再將模組組合或堆疊。然而,模擬到現實遷移的根本前提是,模擬和現實中的任務存在共享結構:無論渲染或物理的域特定差異如何,從等價配置出發的等價動作會產生等價的長期結果。基於這一洞察,來自的研究人員Yunfu Deng和Josiah P. Hanna提出了BIFROST方法,旨在直接從原始觀測中識別並利用這種共享結構,訓練出能夠實現零樣本遷移的策略。
BIFROST的核心是一個跨域雙模擬學習目標。該方法利用配對的跨域資料(即模擬和現實中對應情景的觀測-動作序列),學習一個共享的歷史編碼器。這個編碼器將那些導致等價長期行為的觀測-動作序列對映到潛在空間中的鄰近點,無論它們來自哪個域。透過這種方式,模型忽略了域特定的視覺和動力學差異,只保留了任務相關的本質特徵。模擬中基於這些潛在狀態訓練的策略可以直接部署到現實環境,無需額外的微調。
研究團隊在多個任務上進行了實驗驗證,包括模擬到模擬的視覺導航、模擬到現實的接觸豐富操作任務以及視覺伺服任務。結果表明,在同時存在視覺和動力學域差距的情況下,BIFROST成功實現了策略遷移,而傳統的域適應和協同訓練基線方法則失效。這一方法為機器人領域提供了一種更加魯棒且高效的模擬到現實遷移方案,有望加速機器人策略從模擬學習到實際部署的程序。