2026-05-25 15:56 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

「VLAも世界モデルも終局ではない、物理世界独自のモデルが生まれる」 | アント・リンボの沈宇軍氏 @AIGC2026

2026年中国AIGC産業サミットで、アント・リンボ（Ant Lingbo）のチーフサイエンティストである沈宇軍氏は、大規模モデルはインターネットのデータ恩恵を受けてきたが、ロボットの物理世界のデータはまだ空白だと述べた。彼は、VLAと世界モデルのどちらも身体化知能の最終形態ではなく、将来的には物理世界に特化したモデルに融合すると主張した。アント・リンボはロボット向けの「汎用脳」を目指し、空間認識能力を重要視している。2028年ごろには誰もがロボットにデータを提供できるようになり、身体化知能のChatGPTモーメントが訪れると予測している。

ソース量子位著者: 一水

記事インテリジェンス

エンジニア上級

要点

大規模モデルはインターネットのデータ恩恵に依存するが、ロボットの物理世界データは大幅に不足している。
VLAも世界モデルも終局ではなく、物理世界独自のモデルへと融合する。
アント・リンボはロボットの汎用脳を目指し、空間認識を重要な要素として重視する。
データが標準化され、誰もがロボット訓練データを生成できるようになるとき、身体化知能はChatGPTモーメントを迎える。

重要な理由

このニュースが重要なのは、大規模モデルはインターネットのデータ恩恵に依存するが、ロボットの物理世界データは大幅に不足しているためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

2026年中国AIGC産業サミットで、アント・リンボ・テクノロジーのチーフサイエンティスト沈宇軍氏は、量子位（QbitAI）の共同創業者兼編集長の李根氏との対談に臨み、AIGCからAIGA（AI生成アクション）への移行について議論した。沈氏は、大規模言語モデルがインターネット数十年のデータ恩恵を享受してきた一方で、ロボット工学の分野では物理世界との相互作用に関するデータが極めて不足していると指摘した。

沈氏はAIGAの概念を提唱し、AI 2.0の次のフェーズはデジタル世界のエンターテイメントから物理世界の生産性へ移行すべきだと強調した。単なるコンテンツ生成ではなく、AIが具体的な行動を生成することで、現実世界でのサービスを提供する必要があるという。アント・リンボは、アントグループの子会社として、ロボット向けの「汎用脳」を提供することを目指している。これはスマートフォンのオペレーティングシステムに類似した役割を果たし、知能層に特化し、ハードウェアは専門メーカーに委ねる方針だ。

技術的な課題として、沈氏は空間認識の重要性を強調した。ロボットは深度カメラや力覚センサーなどのセンサーを介して物理世界を理解する必要がある。業界では現在、VLA（視覚・言語・行動）モデルと世界モデルという二つの主要なアプローチが議論されているが、沈氏はどちらか一方だけが最終的な解決策ではないと考えている。VLAは人間とロボットのインタラクションや即時タスクに優れ、世界モデルは将来の状態予測に優れている。両者は最終的に融合し、物理世界に特化した新たなモデルを生み出すだろう。

データの標準化も重要な要素だ。標準化されたデータがなければ、ロボット知能のスケーリングは不可能である。沈氏は、1〜2年以内に商業展開される実証事例が現れ、2〜3年以内にそれが業界全体に広がると予測。その後、ロボットは限定的な役割で消費者市場に参入し、電気自動車のように家庭に普及していくだろう。

身体化知能の「ChatGPTモーメント」は、一般の人々がロボットの訓練データを提供できるようになったときに訪れると沈氏は述べた。これは2028年頃に実現可能で、モデル開発企業とデータ企業の間の調整期間を経て達成される。アント・リンボはロボット時代のAndroidを目指し、多様なハードウェアがインテリジェントに動作するための汎用オペレーティングシステムを提供したいとしている。

対談全体を通じて、沈氏は汎用ロボット知能への道のりには、データ、認識、モデル統合の課題解決が必要だと強調した。現在のVLAや世界モデルのいずれかが最終形態であるという考えを否定し、現実世界の相互作用とフィードバックから学習する新しい形態の知能が生まれる未来を描いた。