2026-06-02 19:03 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

序列知识 #870：液态模型与后Transformer架构探索

本文探讨了Transformer架构的局限性，以及液态模型作为一种有前景的替代方案，后者更适用于低延迟、隐私保护的端侧智能场景。

来源TheSequence作者: Jesus Rodriguez

Transformer架构不仅成为现代AI的主流神经网络架构，更改变了我们对智能实现的默认思维模型。其核心思想看似简单：处理序列时，让每个元素都能关注到所有其他元素。一个词可以关注前面的词，一个代码标记可以关注遥远的变量，一个图像块可以关注另一块，一个工具调用可以关注数千个标记前的指令。注意力机制将序列建模转化为一个巨大的可微分查询表，覆盖整个上下文。

这标志着与循环神经网络时代的彻底决裂。之前的模型像从左到右阅读的读者，逐步更新隐藏状态。而Transformer将这一时间过程扁平化为大规模并行计算。它不再将过去压缩为单一状态，而是让模型直接暴露整个历史。这使得训练更容易，扩展更可预测，长距离关系也更易表达。

然而，每种架构都有其内在的物理限制。在Transformer中，这种物理是全局交互——强大但代价高昂。自注意力机制要求标记之间相互比较。推理时，模型会累积一个键值缓存，以便每个新标记都能关注过去。随着上下文增长，内存消耗也增长；随着模型规模扩大，服务复杂性上升；随着智能体运行时间延长、工具使用增多、本地化需求增强，显式记忆所有内容的成本变得难以忽视。

Transformer是云规模智能的出色架构，但对于始终在线、低延迟、隐私保护、具身化、在设备端运行的智能而言，它未必是最终答案。

这使得液态模型进入了视野。液态模型（Liquid Models）转向动力学方法，以更高效的方式处理时序依赖，无需全局注意力。它们通过微分方程或动态系统模拟神经元活动，减少内存占用，并支持自适应推理。这种架构有望在保持性能的同时，大幅降低功耗和延迟，从而适应端侧部署需求。

探索后Transformer架构不仅是为了追求更高效的模型，更是为了解锁在资源受限环境中实现高级AI的可能性。液态模型代表了这一方向上的重要尝试，但远非唯一。其他研究包括状态空间模型、线性注意力、以及对注意力的稀疏化改造。未来的AI架构可能融合多种思路，在不同场景下动态切换。