本周AI序列第863期:模型即接口:探索Thinking Machines的交互模型
Thinking Machines的交互模型将实时对话、视觉、音频和工具使用融合为一个持续学习的系统。
本周AI序列的专题文章探讨了Thinking Machines在交互模型方面的开创性工作,将多模态AI推向新高度。作者深入研究了他们的理念并分享了一些见解。尽管这项研究尚处于早期阶段,但已展现出令人印象深刻的能力。
在过去几年中,大型语言模型的默认模式异常简单:拼接令牌、预测下一个令牌、重复。人类发送消息,模型回复,人类再次发送。这种模式在许多任务中表现良好,因为文本具有容错性。文本可以等待,可以被缓冲、编辑、压缩并序列化为一个整齐的因果流。
但协作并非文本。协作具有时间性。Thinking Machines的交互模型打破了这种静态模式,将对话、视觉、音频和工具使用整合为一个持续学习的系统。这使得AI能够实时感知和响应环境,而非仅仅处理成批的文本输入。例如,模型可以一边听取用户的语音指令,一边观察视觉场景,并调用工具执行操作,所有过程无缝衔接。
这种交互模型的核心思想是“模型即接口”。传统AI系统中,用户通过固定界面与模型交互,但Thinking Machines将模型本身设计为动态接口,能够根据上下文自适应地调整输出模态和行为。这种设计更接近人类协作的自然方式:即时的、多感官的、目标导向的交流。
尽管该技术仍处于早期阶段,但它为AI的交互方式指明了一个新方向。未来的AI系统可能不再是简单的问答机器,而是能够深度参与实时协作的智能伙伴。Thinking Machines的这项工作无疑为这一愿景奠定了基础。