AI News HubLIVE
サイト内リライト2 分で読了

MolmoAct 2:現実世界で動作するロボットのためのオープン基盤

MolmoAct 2 は完全にオープンなロボティクス基礎モデルであり、より高速で強力な3D動作推論を実現し、新たな両腕操作データセットとともに研究者が研究・再現・拡張できるように提供されます。

ソースAi2 Blog

MolmoAct 2 は、Allen Institute for AI(Ai2)がリリースした次世代ロボティクス基礎モデルです。完全にオープンなアプローチを採用し、モデル重み、データセット、適応的推論手法を含むすべてを研究者が利用可能としています。

前バージョンのMolmoActと比較して、推論速度は最大37倍向上しました。標準ベンチマークでは、単一アクション呼び出しにかかる時間が180ミリ秒(ベースモデル)または790ミリ秒(適応的深度推論搭載)となり、MolmoActの6700ミリ秒から劇的に短縮されました。これにより、ロボットはほぼリアルタイムで環境に応答できるようになりました。

モデルの中核はアーキテクチャの再設計にあります。MolmoAct 2は、専用の身体化推論バリアントであるMolmo 2-ERをベースにしており、300万以上の身体化推論サンプルで追加訓練されています。このバックボーンは、13種類の身体化推論ベンチマークで平均63.8点を記録し、GPT-5やGemini 2.5 Proなどのシステムを上回ります。

MolmoAct 2は、フローマッチングによりロボット動作を生成するアクション専門家モジュールを備え、KVキャッシュブリッジを介して視覚言語モデルと接続します。また、オープンなアクショントークナイザー「MolmoAct 2-FAST Tokenizer」が新たに公開されました。

訓練データとして、720時間の両腕ロボットデモを含む「MolmoAct 2-Bimanual YAM」データセットが構築されました。これはオープンソースとしては最大の両腕操作データセットであり、折りたたみ、スキャン、充電などの協調タスクをカバーします。ゼロショットテストでは、フランカアーム上で87.1%の平均成功率を達成し、MolmoBotの48.4%やπ0.5の45.2%を大きく上回りました。第三者機関による検証でも、8つの両腕タスク中7つで最高スコアを獲得し、平均0.51を記録しました(次点のOpenVLA-OFTは0.36)。

MolmoAct 2は、自然言語指示やビジュアルトレースに対応し、全モデルを再訓練することなくガイド可能です。また、リファレンスハードウェア構成も公開されています。

現在、スタンフォード大学医学部のコン・ラボと連携し、CRISPR遺伝子編集実験のウェットラボ自動化パイロットが進行中です。非構造化環境での動作において、MolmoAct 2は実験ワークフローを効率化し、科学的発見を加速する可能性を示しています。ただし、グリッパーがカメラ視野を遮る場合や、特に精密な操作が必要なタスクなど、依然として限界があります。Ai2は、これらの課題をコミュニティと協力して解決するためのオープンな基盤を提供することを目指しています。