2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

自我對弈與少量人類數據催生類人自動駕駛能力

強化學習自我對弈雖能以低成本訓練自動駕駛策略，但易產生與人類駕駛習慣不符的“異類”行為。新方法將少量人類演示（僅30分鐘）作為正則化目標，結合最小安全目標獎勵，訓練出的策略能與人類軌跡協調，訓練時間僅15小時（單GPU），數據量僅為模仿學習的1/2500。

來源arXiv Machine Learning作者: Daphne Cornelisse, Julian Hunt, Zixu Zhang, Wa\"el Doulazmi, Kevin Joseph, Jaime Fern\'andez Fisac, Eugene Vinitsky

近年來，自我對弈強化學習成為訓練自動駕駛策略的新興方法，無需人類數據即可通過廉價大規模仿真替代昂貴的人類駕駛演示。這種方法通過讓智能體在模擬環境中自我博弈，不斷優化駕駛策略，理論上可以無限生成訓練數據，極大降低了對真實世界數據的依賴。然而，純自我對弈訓練的策略雖能高效完成駕駛任務，卻常學習到與人類習慣迥異的“外星”駕駛規則——例如，沒有人類駕駛員的車輛可能會採取極端的加速、急轉彎或與其他車輛保持不舒適的安全距離，導致實際部署中的人機不兼容。

此前研究試圖通過繁複的獎勵工程和環境隨機化來緩解行為偏差，但這些方法脆弱且勞動密集，往往需要大量的手動調整和領域知識。來自荷蘭的研究團隊提出了一種創新方案：不完全摒棄人類數據，而是將其作為正則化目標疊加在最小安全目標獎勵之上。具體來説，他們設計了一個雙層優化框架：第一層使用人類演示數據作為軟約束，引導策略向人類行為模式靠近；第二層通過最小化安全風險獎勵確保基本的安全性。這種方法效果顯著——僅需30分鐘的人類駕駛演示（僅為模仿學習方法需用數據量的1/2500），訓練出的策略便能與預留的人類軌跡完美協調，且整個訓練過程在單張消費級GPU上僅需15小時。

論文作者以“好湯中的調料”比喻人類數據的作用，強調少量人類示範即可引導自我對弈策略走向類人行為模式。這一平衡方案既保留了自我對弈的高效性和探索能力，又通過極少量人類數據有效約束了行為軌跡。研究團隊進行了大量消融實驗，證明30分鐘的人類數據是最優選擇；更少的數據會導致策略仍顯異類，更多的數據則收益遞減，且會增加數據採集成本。

研究團隊已開源全部代碼併發布演示視頻，研究者可進一步驗證該方法的可復現性。該成果有望大幅降低自動駕駛系統對人類標註數據的依賴，同時確保自主系統與人類駕駛員的安全交互。此外，該方法不僅限於自動駕駛，還可推廣至其他需要人類兼容行為的機器人控制任務，如無人機導航或工業機械臂操作。