BIFROST:観測空間におけるSim2Real転送のための不変特徴表現の橋渡し
BIFROSTは、クロスドメイン双模倣目的を使用して生の観測から不変特徴を学習し、シミュレーションから現実へのゼロショットポリシー転送を可能にする新しいロボット工学のSim2Real転送手法です。視覚的および動的ドメインギャップのあるタスクで既存のアプローチを上回ります。
ロボットポリシー学習におけるSim2Real転送は、シミュレーションと現実の間のミスマッチにより課題があります。既存の手法は通常、視覚や動力学のギャップを個別の適応モジュールで対処し、両方のギャップが共存する場合はそれらを組み合わせたり階層化したりします。しかし、Sim2Real転送の根底には、シミュレーションと現実のタスクに共有構造が存在するという前提があります。つまり、レンダリングや物理のドメイン固有の違いに関係なく、等価な設定から等価なアクションを取ると等価な長期的結果が得られるという構造です。この論文では、この共有構造を生の観測から特定し活用して、ゼロショット転送を可能にするポリシーを学習できるかどうかを研究しています。
著者らはBIFROSTを提案します。これは、ペアのクロスドメインデータに対してクロスドメイン双模倣目的関数を用いて共有履歴エンコーダを学習します。この目的関数では、等価な長期的振る舞いにつながる観測-アクション系列を、ドメインに関係なく潜在空間内の近接した状態にマッピングします。シミュレーションでこれらの潜在状態に基づいて訓練されたポリシーは、現実にゼロショットで転送されます。
実験では、sim2sim視覚ナビゲーション、sim2real接触豊富操作タスク、ビジュアルサーボタスクにおいて、BIFROSTが視覚および動力学のドメインギャップの下で効果的な転送を達成し、ドメイン適応や共訓練ベースラインが失敗する場面でも成功することを実証しています。この結果は、BIFROSTがロボットポリシーのシミュレーションから現実への移行をより堅牢かつ効率的にする可能性を示しています。