2026-05-20 19:03 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

本周AI序列第863期：模型即接口：探索Thinking Machines的交互模型

Thinking Machines的交互模型将实时对话、视觉、音频和工具使用融合为一个持续学习的系统。

来源TheSequence作者: Jesus Rodriguez

本周AI序列的专题文章探讨了Thinking Machines在交互模型方面的开创性工作，将多模态AI推向新高度。作者深入研究了他们的理念并分享了一些见解。尽管这项研究尚处于早期阶段，但已展现出令人印象深刻的能力。

在过去几年中，大型语言模型的默认模式异常简单：拼接令牌、预测下一个令牌、重复。人类发送消息，模型回复，人类再次发送。这种模式在许多任务中表现良好，因为文本具有容错性。文本可以等待，可以被缓冲、编辑、压缩并序列化为一个整齐的因果流。

但协作并非文本。协作具有时间性。Thinking Machines的交互模型打破了这种静态模式，将对话、视觉、音频和工具使用整合为一个持续学习的系统。这使得AI能够实时感知和响应环境，而非仅仅处理成批的文本输入。例如，模型可以一边听取用户的语音指令，一边观察视觉场景，并调用工具执行操作，所有过程无缝衔接。

这种交互模型的核心思想是“模型即接口”。传统AI系统中，用户通过固定界面与模型交互，但Thinking Machines将模型本身设计为动态接口，能够根据上下文自适应地调整输出模态和行为。这种设计更接近人类协作的自然方式：即时的、多感官的、目标导向的交流。

尽管该技术仍处于早期阶段，但它为AI的交互方式指明了一个新方向。未来的AI系统可能不再是简单的问答机器，而是能够深度参与实时协作的智能伙伴。Thinking Machines的这项工作无疑为这一愿景奠定了基础。