AI News HubLIVE
站内改写2 分鐘閱讀

自我對弈與少量人類數據催生類人自動駕駛能力

強化學習自我對弈雖能以低成本訓練自動駕駛策略,但易產生與人類駕駛習慣不符的“異類”行為。新方法將少量人類演示(僅30分鐘)作為正則化目標,結合最小安全目標獎勵,訓練出的策略能與人類軌跡協調,訓練時間僅15小時(單GPU),數據量僅為模仿學習的1/2500。

來源arXiv Machine Learning作者: Daphne Cornelisse, Julian Hunt, Zixu Zhang, Wa\"el Doulazmi, Kevin Joseph, Jaime Fern\'andez Fisac, Eugene Vinitsky

近年來,自我對弈強化學習成為訓練自動駕駛策略的新興方法,無需人類數據即可通過廉價大規模仿真替代昂貴的人類駕駛演示。這種方法通過讓智能體在模擬環境中自我博弈,不斷優化駕駛策略,理論上可以無限生成訓練數據,極大降低了對真實世界數據的依賴。然而,純自我對弈訓練的策略雖能高效完成駕駛任務,卻常學習到與人類習慣迥異的“外星”駕駛規則——例如,沒有人類駕駛員的車輛可能會採取極端的加速、急轉彎或與其他車輛保持不舒適的安全距離,導致實際部署中的人機不兼容。

此前研究試圖通過繁複的獎勵工程和環境隨機化來緩解行為偏差,但這些方法脆弱且勞動密集,往往需要大量的手動調整和領域知識。來自荷蘭的研究團隊提出了一種創新方案:不完全摒棄人類數據,而是將其作為正則化目標疊加在最小安全目標獎勵之上。具體來説,他們設計了一個雙層優化框架:第一層使用人類演示數據作為軟約束,引導策略向人類行為模式靠近;第二層通過最小化安全風險獎勵確保基本的安全性。這種方法效果顯著——僅需30分鐘的人類駕駛演示(僅為模仿學習方法需用數據量的1/2500),訓練出的策略便能與預留的人類軌跡完美協調,且整個訓練過程在單張消費級GPU上僅需15小時。

論文作者以“好湯中的調料”比喻人類數據的作用,強調少量人類示範即可引導自我對弈策略走向類人行為模式。這一平衡方案既保留了自我對弈的高效性和探索能力,又通過極少量人類數據有效約束了行為軌跡。研究團隊進行了大量消融實驗,證明30分鐘的人類數據是最優選擇;更少的數據會導致策略仍顯異類,更多的數據則收益遞減,且會增加數據採集成本。

研究團隊已開源全部代碼併發布演示視頻,研究者可進一步驗證該方法的可復現性。該成果有望大幅降低自動駕駛系統對人類標註數據的依賴,同時確保自主系統與人類駕駛員的安全交互。此外,該方法不僅限於自動駕駛,還可推廣至其他需要人類兼容行為的機器人控制任務,如無人機導航或工業機械臂操作。