本週AI序列第863期:模型即接口:探索Thinking Machines的交互模型
Thinking Machines的交互模型將實時對話、視覺、音頻和工具使用融合為一個持續學習的系統。
本週AI序列的專題文章探討了Thinking Machines在交互模型方面的開創性工作,將多模態AI推向新高度。作者深入研究了他們的理念並分享了一些見解。儘管這項研究尚處於早期階段,但已展現出令人印象深刻的能力。
在過去幾年中,大型語言模型的默認模式異常簡單:拼接令牌、預測下一個令牌、重複。人類發送消息,模型回覆,人類再次發送。這種模式在許多任務中表現良好,因為文本具有容錯性。文本可以等待,可以被緩衝、編輯、壓縮並序列化為一個整齊的因果流。
但協作並非文本。協作具有時間性。Thinking Machines的交互模型打破了這種靜態模式,將對話、視覺、音頻和工具使用整合為一個持續學習的系統。這使得AI能夠實時感知和響應環境,而非僅僅處理成批的文本輸入。例如,模型可以一邊聽取用户的語音指令,一邊觀察視覺場景,並調用工具執行操作,所有過程無縫銜接。
這種交互模型的核心思想是“模型即接口”。傳統AI系統中,用户通過固定界面與模型交互,但Thinking Machines將模型本身設計為動態接口,能夠根據上下文自適應地調整輸出模態和行為。這種設計更接近人類協作的自然方式:即時的、多感官的、目標導向的交流。
儘管該技術仍處於早期階段,但它為AI的交互方式指明瞭一個新方向。未來的AI系統可能不再是簡單的問答機器,而是能夠深度參與實時協作的智能夥伴。Thinking Machines的這項工作無疑為這一願景奠定了基礎。