2026-05-21站内改写2 分鐘閱讀更新: 2026-06-12

物理AI的未來不在於更智慧的機器人，而在於更智慧的介面

Wetour Robotics認為，物理AI的下一個前沿不是更智慧的機器人，而是將人體視為計算網路中的一流節點的更智慧介面。其空間意圖融合平臺Orchestra結合空間位置、視覺背景和手勢意圖，實現低延遲、擴音控制連線裝置。系統使用邊緣AI和表面肌電訊號（sEMG）進行動作前意圖感知，解決了傳統介面在現實場景中的失效問題。文章討論了其架構、權衡及對領域的影響。

來源IEEE Spectrum AI作者: Wetour Robotics

Wetour Robotics在最新技術白皮書中提出了一個顛覆性觀點：物理AI的未來不在於製造更智慧的機器人，而在於設計更智慧的人機介面。該公司認為，過去40年，人機互動一直侷限於螢幕、按鈕和語音三種模式，這些模式在使用者雙手被佔用、視線無法離開或不便說話的場景下徹底失效。例如，風力渦輪機上的技術人員需要雙手操作扳手，無法騰出手來操作診斷裝置；物流工人戴著手套，需要重新引導叉車；使用輔助移動裝置的人希望在不掏出手機或說話的情況下前進。這些場景並不需要更聰明的機器人，而是需要一種更自然的方式讓機器理解人的意圖。

Wetour Robotics的解決方案是“空間意圖融合”（Spatial Intent Fusion），該技術同時處理三個維度的資訊：空間位置、視覺背景和手勢意圖，並將它們融合成即時指令，傳遞給任何連線的裝置。其核心平臺名為“Orchestra”，是一個行動式智慧樞紐，執行自主作業系統，負責感測器融合、意圖推理、命令轉換和安全仲裁。該平臺參考計算平臺為NVIDIA Jetson Orin Nano Super，提供足夠的本地推理能力，使整個控制迴圈在邊緣完成，關鍵路徑不依賴雲端。從生物訊號採集到執行器命令的全鏈路延遲控制在100毫秒以內，確保閉環控制感覺自然而不滯後。

Orchestra架構分為三個感知層和四個協調引擎。感知層包括：Orchestra本身（本地計算和編排核心）、VisionLink（視覺和空間感知層，利用攝像頭和視覺模型進行物體識別、距離估計和環境追蹤）、以及Conductor（生物訊號管道，透過腕帶裝置採集表面肌電訊號sEMG，並將時間模式分類為離散手勢或連續控制訊號）。sEMG的技術亮點在於其訊號先於可見動作出現：運動單位動作電位在手指完成相應手勢前約50至80毫秒就會出現在皮膚表面，Wetour Robotics稱之為“動作前意圖感知”，使Orchestra能夠預測使用者意圖而非被動反應。

在四個協調引擎中，感知引擎接收並標準化原始感測器資料；意圖引擎跨模態執行空間意圖融合，解析使用者意圖；編排引擎將意圖轉換為特定裝置的命令序列；安全引擎仲裁衝突命令、強制執行操作邊界並基於執行時安全條件控制執行。

Wetour Robotics坦承仍有三大工程挑戰未完全解決：運動中sEMG基線穩定性、邊緣AI計算小型化、以及第三方裝置協議的異構性。針對sEMG穩定性，Orchestra在複雜環境中預設使用較少的魯棒離散手勢，保留連續控制模式用於訊雜比支援的環境。針對小型化，公司設計了緊湊的載板、散熱和電池模組，實現全天佩戴。針對協議異構性，Orchestra使用AI代理層自適應協商連線和協議轉換。

文章最後指出，將人類重新納入計算迴圈不僅是改善個體使用者的介面，更是為整個人形機器人領域生成真實世界的人機互動資料。Wetour Robotics的標語“你的身體就是介面”概括了這一願景。