AI News HubLIVE
站内改写2 分鐘閱讀

物理AI的未來不在於更智能的機器人,而在於更智能的界面

Wetour Robotics認為,物理AI的下一個前沿不是更智能的機器人,而是將人體視為計算網絡中的一流節點的更智能界面。其空間意圖融合平台Orchestra結合空間位置、視覺背景和手勢意圖,實現低延遲、免提控制連接設備。系統使用邊緣AI和表面肌電信號(sEMG)進行動作前意圖感知,解決了傳統界面在現實場景中的失效問題。文章討論了其架構、權衡及對領域的影響。

來源IEEE Spectrum AI作者: Wetour Robotics

Wetour Robotics在最新技術白皮書中提出了一個顛覆性觀點:物理AI的未來不在於製造更智能的機器人,而在於設計更智能的人機界面。該公司認為,過去40年,人機交互一直侷限於屏幕、按鈕和語音三種模式,這些模式在用户雙手被佔用、視線無法離開或不便説話的場景下徹底失效。例如,風力渦輪機上的技術人員需要雙手操作扳手,無法騰出手來操作診斷設備;物流工人戴着手套,需要重新引導叉車;使用輔助移動設備的人希望在不掏出手機或説話的情況下前進。這些場景並不需要更聰明的機器人,而是需要一種更自然的方式讓機器理解人的意圖。

Wetour Robotics的解決方案是“空間意圖融合”(Spatial Intent Fusion),該技術同時處理三個維度的信息:空間位置、視覺背景和手勢意圖,並將它們融合成實時指令,傳遞給任何連接的設備。其核心平台名為“Orchestra”,是一個便攜式智能樞紐,運行自主操作系統,負責傳感器融合、意圖推理、命令轉換和安全仲裁。該平台參考計算平台為NVIDIA Jetson Orin Nano Super,提供足夠的本地推理能力,使整個控制循環在邊緣完成,關鍵路徑不依賴雲端。從生物信號採集到執行器命令的全鏈路延遲控制在100毫秒以內,確保閉環控制感覺自然而不滯後。

Orchestra架構分為三個感知層和四個協調引擎。感知層包括:Orchestra本身(本地計算和編排核心)、VisionLink(視覺和空間感知層,利用攝像頭和視覺模型進行物體識別、距離估計和環境追蹤)、以及Conductor(生物信號管道,通過腕帶設備採集表面肌電信號sEMG,並將時間模式分類為離散手勢或連續控制信號)。sEMG的技術亮點在於其信號先於可見動作出現:運動單位動作電位在手指完成相應手勢前約50至80毫秒就會出現在皮膚表面,Wetour Robotics稱之為“動作前意圖感知”,使Orchestra能夠預測用户意圖而非被動反應。

在四個協調引擎中,感知引擎接收並標準化原始傳感器數據;意圖引擎跨模態執行空間意圖融合,解析用户意圖;編排引擎將意圖轉換為特定設備的命令序列;安全引擎仲裁衝突命令、強制執行操作邊界並基於運行時安全條件控制執行。

Wetour Robotics坦承仍有三大工程挑戰未完全解決:運動中sEMG基線穩定性、邊緣AI計算小型化、以及第三方設備協議的異構性。針對sEMG穩定性,Orchestra在複雜環境中默認使用較少的魯棒離散手勢,保留連續控制模式用於信噪比支持的環境。針對小型化,公司設計了緊湊的載板、散熱和電池模塊,實現全天佩戴。針對協議異構性,Orchestra使用AI代理層自適應協商連接和協議轉換。

文章最後指出,將人類重新納入計算循環不僅是改善個體用户的界面,更是為整個人形機器人領域生成真實世界的人機交互數據。Wetour Robotics的標語“你的身體就是界面”概括了這一願景。