2025-11-04 21:06 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

超越标准大语言模型

本文探讨了除传统自回归Transformer之外的大语言模型替代架构，包括线性注意力混合模型、文本扩散模型、代码世界模型和小型递归Transformer。文章分析了每种方法在效率、推理和建模性能上的优势与局限，并展望了未来发展方向。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

文章情报

工程师进阶

要点

线性注意力混合模型（如Qwen3-Next和Kimi Linear）通过Gated DeltaNet等技术将计算复杂度降至线性，但需在效率和推理精度间取得平衡。
文本扩散模型能并行生成多个token，但面临质量损失和工具集成困难，目前难以取代自回归模型。
代码世界模型（CWM）通过学习代码执行轨迹来模拟程序状态，在SWE-bench上以32B参数达到与百亿模型相当的性能。
小型递归Transformer（如TRM）以数百万参数在网格推理任务中展现卓越能力，展示了递归思维在专用问题上的潜力。

为什么重要

这条新闻值得关注，因为线性注意力混合模型（如Qwen3-Next和Kimi Linear）通过Gated DeltaNet等技术将计算复杂度降至线性，但需在效率和推理精度间取得平衡。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

从DeepSeek R1到MiniMax-M2，当前最强大的开源大语言模型（LLM）仍以自回归解码器式Transformer为主，它们基于原始多头注意力机制的变体。然而，近年涌现出许多替代方案，旨在提高效率或建模性能。本文系统梳理了四大替代方向：线性注意力混合模型、文本扩散模型、代码世界模型以及小型递归Transformer。

线性注意力混合模型：传统注意力机制的计算复杂度与输入序列长度呈二次方关系，限制了长上下文处理。线性注意力变体通过核函数近似或门控机制（如Gated DeltaNet）将复杂度降至线性，并采用混合架构——例如Qwen3-Next和Kimi Linear在48层Transformer中以3:1比例交替使用线性注意力和全注意力层。Gated DeltaNet通过循环状态更新（类似RNN）避免显式注意力矩阵，并使用α（衰减门）和β（更新门）控制记忆。这使KV缓存大小不再随上下文增长，Kimi Linear实现75%的KV缓存减少和6倍解码吞吐量。但MiniMax M2因线性注意力在推理任务中精度不足而回归常规注意力，显示该方向仍需突破。

文本扩散模型：借鉴图像扩散的思路，文本扩散模型通过逐步去噪掩码序列来并行生成所有token，而不是像自回归模型那样逐个生成。例如，LLaDA模型使用LLaMA架构但移除因果掩码，训练目标是扩散去噪而非下一个token预测。理论上扩散模型在生成长序列时更高效，但ParallelBench研究表明，并行解码可能产生不合理输出（如“New City”），且质量在低步数时明显下降。此外，扩散模型难以集成工具链。Google的Gemini Diffusion声称速度大幅提升，但性能与Gemini 2.0 Flash-Lite相当，尚未广泛落地。

代码世界模型（CWM）：CWM是首个将世界模型思想引入代码领域的模型，通过学习代码执行轨迹来预测变量状态变化，而不仅仅是文本模式。CWM是一个32B参数的密集解码器Transformer，支持131K上下文，经过预训练、中期训练（引入世界建模）、SFT和RL阶段。在SWE-bench上，CWM与gpt-oss-20b持平；使用测试时缩放（best@k策略）后，甚至超越4倍大的gpt-oss-120b。值得注意的是，CWM推理时仍是自回归生成，但输出包含结构化执行轨迹，可视为世界模型增强的LLM。

小型递归Transformer：Hierarchical Reasoning Model（HRM）和Tiny Recursive Model（TRM）展示了极小模型在推理上的潜力。HRM仅有4个Transformer块，通过递归精炼回答，在ARC挑战中取得领先。TRM更进一步，仅700万参数（4倍小于HRM），使用单层2-layer Transformer，通过交替更新潜在状态和答案，并利用二元交叉熵损失学习何时停止迭代。TRM目前处理网格输入（如数独或迷宫），但其递归推理机制为语言推理提供了新思路。

总之，每种替代方案都在效率、性能或推理能力上各有取舍。线性注意力混合模型和代码世界模型展现出实际应用前景，而文本扩散和小型递归模型则开辟了新的研究方向。未来，注意力混合模型有望进一步提升长上下文稳定性和推理精度，扩散模型可能在端侧场景找到用武之地，世界模型将拓展到更多领域，而递归范式或为轻量级推理提供新路径。