物理AI的未來不在於更智慧的機器人,而在於更智慧的介面
Wetour Robotics認為,物理AI的下一個前沿不是更智慧的機器人,而是將人體視為計算網路中的一流節點的更智慧介面。其空間意圖融合平臺Orchestra結合空間位置、視覺背景和手勢意圖,實現低延遲、擴音控制連線裝置。系統使用邊緣AI和表面肌電訊號(sEMG)進行動作前意圖感知,解決了傳統介面在現實場景中的失效問題。文章討論了其架構、權衡及對領域的影響。
Wetour Robotics在最新技術白皮書中提出了一個顛覆性觀點:物理AI的未來不在於製造更智慧的機器人,而在於設計更智慧的人機介面。該公司認為,過去40年,人機互動一直侷限於螢幕、按鈕和語音三種模式,這些模式在使用者雙手被佔用、視線無法離開或不便說話的場景下徹底失效。例如,風力渦輪機上的技術人員需要雙手操作扳手,無法騰出手來操作診斷裝置;物流工人戴著手套,需要重新引導叉車;使用輔助移動裝置的人希望在不掏出手機或說話的情況下前進。這些場景並不需要更聰明的機器人,而是需要一種更自然的方式讓機器理解人的意圖。
Wetour Robotics的解決方案是“空間意圖融合”(Spatial Intent Fusion),該技術同時處理三個維度的資訊:空間位置、視覺背景和手勢意圖,並將它們融合成即時指令,傳遞給任何連線的裝置。其核心平臺名為“Orchestra”,是一個行動式智慧樞紐,執行自主作業系統,負責感測器融合、意圖推理、命令轉換和安全仲裁。該平臺參考計算平臺為NVIDIA Jetson Orin Nano Super,提供足夠的本地推理能力,使整個控制迴圈在邊緣完成,關鍵路徑不依賴雲端。從生物訊號採集到執行器命令的全鏈路延遲控制在100毫秒以內,確保閉環控制感覺自然而不滯後。
Orchestra架構分為三個感知層和四個協調引擎。感知層包括:Orchestra本身(本地計算和編排核心)、VisionLink(視覺和空間感知層,利用攝像頭和視覺模型進行物體識別、距離估計和環境追蹤)、以及Conductor(生物訊號管道,透過腕帶裝置採集表面肌電訊號sEMG,並將時間模式分類為離散手勢或連續控制訊號)。sEMG的技術亮點在於其訊號先於可見動作出現:運動單位動作電位在手指完成相應手勢前約50至80毫秒就會出現在皮膚表面,Wetour Robotics稱之為“動作前意圖感知”,使Orchestra能夠預測使用者意圖而非被動反應。
在四個協調引擎中,感知引擎接收並標準化原始感測器資料;意圖引擎跨模態執行空間意圖融合,解析使用者意圖;編排引擎將意圖轉換為特定裝置的命令序列;安全引擎仲裁衝突命令、強制執行操作邊界並基於執行時安全條件控制執行。
Wetour Robotics坦承仍有三大工程挑戰未完全解決:運動中sEMG基線穩定性、邊緣AI計算小型化、以及第三方裝置協議的異構性。針對sEMG穩定性,Orchestra在複雜環境中預設使用較少的魯棒離散手勢,保留連續控制模式用於訊雜比支援的環境。針對小型化,公司設計了緊湊的載板、散熱和電池模組,實現全天佩戴。針對協議異構性,Orchestra使用AI代理層自適應協商連線和協議轉換。
文章最後指出,將人類重新納入計算迴圈不僅是改善個體使用者的介面,更是為整個人形機器人領域生成真實世界的人機互動資料。Wetour Robotics的標語“你的身體就是介面”概括了這一願景。