2026-05-20 19:03 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

本週AI序列第863期：模型即接口：探索Thinking Machines的交互模型

Thinking Machines的交互模型將實時對話、視覺、音頻和工具使用融合為一個持續學習的系統。

來源TheSequence作者: Jesus Rodriguez

本週AI序列的專題文章探討了Thinking Machines在交互模型方面的開創性工作，將多模態AI推向新高度。作者深入研究了他們的理念並分享了一些見解。儘管這項研究尚處於早期階段，但已展現出令人印象深刻的能力。

在過去幾年中，大型語言模型的默認模式異常簡單：拼接令牌、預測下一個令牌、重複。人類發送消息，模型回覆，人類再次發送。這種模式在許多任務中表現良好，因為文本具有容錯性。文本可以等待，可以被緩衝、編輯、壓縮並序列化為一個整齊的因果流。

但協作並非文本。協作具有時間性。Thinking Machines的交互模型打破了這種靜態模式，將對話、視覺、音頻和工具使用整合為一個持續學習的系統。這使得AI能夠實時感知和響應環境，而非僅僅處理成批的文本輸入。例如，模型可以一邊聽取用户的語音指令，一邊觀察視覺場景，並調用工具執行操作，所有過程無縫銜接。

這種交互模型的核心思想是“模型即接口”。傳統AI系統中，用户通過固定界面與模型交互，但Thinking Machines將模型本身設計為動態接口，能夠根據上下文自適應地調整輸出模態和行為。這種設計更接近人類協作的自然方式：即時的、多感官的、目標導向的交流。

儘管該技術仍處於早期階段，但它為AI的交互方式指明瞭一個新方向。未來的AI系統可能不再是簡單的問答機器，而是能夠深度參與實時協作的智能夥伴。Thinking Machines的這項工作無疑為這一願景奠定了基礎。