AI週間第883回:Qwenがロボティクスに進出
アリババのQwenモデルファミリーがロボットスイートを発表。知覚と行動のギャップを埋める3つの新モデルを提供し、物理動作のトークン化が鍵とされる。
約3年にわたり、Qwenファミリーは「ガラスの向こう側」で存在してきました。コードを読み、スクリーンショットを見、質問に答える一方で、現実の物体には触れられません。コーヒーカップを詳細に説明できても、それを手に取ることはできないのです。この「理解と行動のギャップ」こそ、アリババが6月に発表したQwen-Robot Suiteで最も率直に認めた点です。通義実験室のチームは「見ることは行動することではない」と明言しています。知覚と推論はすでに強力ですが、具現化インテリジェンスのボトルネックは、「何が起きるべきか分かる」から「それを実現する関節トルクはこれだ」への変換層にあります。
そこでアリババが投入したのが、Qwen-RobotNav(ナビゲーション)、Qwen-RobotManip(操作)、Qwen-RobotWorld(世界モデリング)の3モデルです。これらは特定のベンチマーク数値よりも、賭けの形状そのものが興味深い。重要な洞察は、本当のボトルネックは知能ではなく、物理的な行動をいかにトークン化するかにあるという点です。このアプローチは、将来の機械学習がアクションの離散表現において大きな進歩を遂げる可能性を示唆しています。