超越标准大语言模型
本文探讨了除传统自回归Transformer之外的大语言模型替代架构,包括线性注意力混合模型、文本扩散模型、代码世界模型和小型递归Transformer。文章分析了每种方法在效率、推理和建模性能上的优势与局限,并展望了未来发展方向。
从DeepSeek R1到MiniMax-M2,当前最强大的开源大语言模型(LLM)仍以自回归解码器式Transformer为主,它们基于原始多头注意力机制的变体。然而,近年涌现出许多替代方案,旨在提高效率或建模性能。本文系统梳理了四大替代方向:线性注意力混合模型、文本扩散模型、代码世界模型以及小型递归Transformer。
线性注意力混合模型:传统注意力机制的计算复杂度与输入序列长度呈二次方关系,限制了长上下文处理。线性注意力变体通过核函数近似或门控机制(如Gated DeltaNet)将复杂度降至线性,并采用混合架构——例如Qwen3-Next和Kimi Linear在48层Transformer中以3:1比例交替使用线性注意力和全注意力层。Gated DeltaNet通过循环状态更新(类似RNN)避免显式注意力矩阵,并使用α(衰减门)和β(更新门)控制记忆。这使KV缓存大小不再随上下文增长,Kimi Linear实现75%的KV缓存减少和6倍解码吞吐量。但MiniMax M2因线性注意力在推理任务中精度不足而回归常规注意力,显示该方向仍需突破。
文本扩散模型:借鉴图像扩散的思路,文本扩散模型通过逐步去噪掩码序列来并行生成所有token,而不是像自回归模型那样逐个生成。例如,LLaDA模型使用LLaMA架构但移除因果掩码,训练目标是扩散去噪而非下一个token预测。理论上扩散模型在生成长序列时更高效,但ParallelBench研究表明,并行解码可能产生不合理输出(如“New City”),且质量在低步数时明显下降。此外,扩散模型难以集成工具链。Google的Gemini Diffusion声称速度大幅提升,但性能与Gemini 2.0 Flash-Lite相当,尚未广泛落地。
代码世界模型(CWM):CWM是首个将世界模型思想引入代码领域的模型,通过学习代码执行轨迹来预测变量状态变化,而不仅仅是文本模式。CWM是一个32B参数的密集解码器Transformer,支持131K上下文,经过预训练、中期训练(引入世界建模)、SFT和RL阶段。在SWE-bench上,CWM与gpt-oss-20b持平;使用测试时缩放(best@k策略)后,甚至超越4倍大的gpt-oss-120b。值得注意的是,CWM推理时仍是自回归生成,但输出包含结构化执行轨迹,可视为世界模型增强的LLM。
小型递归Transformer:Hierarchical Reasoning Model(HRM)和Tiny Recursive Model(TRM)展示了极小模型在推理上的潜力。HRM仅有4个Transformer块,通过递归精炼回答,在ARC挑战中取得领先。TRM更进一步,仅700万参数(4倍小于HRM),使用单层2-layer Transformer,通过交替更新潜在状态和答案,并利用二元交叉熵损失学习何时停止迭代。TRM目前处理网格输入(如数独或迷宫),但其递归推理机制为语言推理提供了新思路。
总之,每种替代方案都在效率、性能或推理能力上各有取舍。线性注意力混合模型和代码世界模型展现出实际应用前景,而文本扩散和小型递归模型则开辟了新的研究方向。未来,注意力混合模型有望进一步提升长上下文稳定性和推理精度,扩散模型可能在端侧场景找到用武之地,世界模型将拓展到更多领域,而递归范式或为轻量级推理提供新路径。