2025-11-04 21:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

超越標準大語言模型

本文探討了除傳統自迴歸Transformer之外的大語言模型替代架構，包括線性注意力混合模型、文本擴散模型、代碼世界模型和小型遞歸Transformer。文章分析了每種方法在效率、推理和建模性能上的優勢與侷限，並展望了未來發展方向。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

文章情報

工程師進階

要點

線性注意力混合模型（如Qwen3-Next和Kimi Linear）通過Gated DeltaNet等技術將計算複雜度降至線性，但需在效率和推理精度間取得平衡。
文本擴散模型能並行生成多個token，但面臨質量損失和工具集成困難，目前難以取代自迴歸模型。
代碼世界模型（CWM）通過學習代碼執行軌跡來模擬程序狀態，在SWE-bench上以32B參數達到與百億模型相當的性能。
小型遞歸Transformer（如TRM）以數百萬參數在網格推理任務中展現卓越能力，展示了遞歸思維在專用問題上的潛力。

為甚麼重要

這條新聞值得關注，因為線性注意力混合模型（如Qwen3-Next和Kimi Linear）通過Gated DeltaNet等技術將計算複雜度降至線性，但需在效率和推理精度間取得平衡。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

從DeepSeek R1到MiniMax-M2，當前最強大的開源大語言模型（LLM）仍以自迴歸解碼器式Transformer為主，它們基於原始多頭注意力機制的變體。然而，近年湧現出許多替代方案，旨在提高效率或建模性能。本文系統梳理了四大替代方向：線性注意力混合模型、文本擴散模型、代碼世界模型以及小型遞歸Transformer。

線性注意力混合模型：傳統注意力機制的計算複雜度與輸入序列長度呈二次方關係，限制了長上下文處理。線性注意力變體通過核函數近似或門控機制（如Gated DeltaNet）將複雜度降至線性，並採用混合架構——例如Qwen3-Next和Kimi Linear在48層Transformer中以3:1比例交替使用線性注意力和全注意力層。Gated DeltaNet通過循環狀態更新（類似RNN）避免顯式注意力矩陣，並使用α（衰減門）和β（更新門）控制記憶。這使KV緩存大小不再隨上下文增長，Kimi Linear實現75%的KV緩存減少和6倍解碼吞吐量。但MiniMax M2因線性注意力在推理任務中精度不足而回歸常規注意力，顯示該方向仍需突破。

文本擴散模型：借鑑圖像擴散的思路，文本擴散模型通過逐步去噪掩碼序列來並行生成所有token，而不是像自迴歸模型那樣逐個生成。例如，LLaDA模型使用LLaMA架構但移除因果掩碼，訓練目標是擴散去噪而非下一個token預測。理論上擴散模型在生成長序列時更高效，但ParallelBench研究表明，並行解碼可能產生不合理輸出（如“New City”），且質量在低步數時明顯下降。此外，擴散模型難以集成工具鏈。Google的Gemini Diffusion聲稱速度大幅提升，但性能與Gemini 2.0 Flash-Lite相當，尚未廣泛落地。

代碼世界模型（CWM）：CWM是首個將世界模型思想引入代碼領域的模型，通過學習代碼執行軌跡來預測變量狀態變化，而不僅僅是文本模式。CWM是一個32B參數的密集解碼器Transformer，支持131K上下文，經過預訓練、中期訓練（引入世界建模）、SFT和RL階段。在SWE-bench上，CWM與gpt-oss-20b持平；使用測試時縮放（best@k策略）後，甚至超越4倍大的gpt-oss-120b。值得注意的是，CWM推理時仍是自迴歸生成，但輸出包含結構化執行軌跡，可視為世界模型增強的LLM。

小型遞歸Transformer：Hierarchical Reasoning Model（HRM）和Tiny Recursive Model（TRM）展示了極小模型在推理上的潛力。HRM僅有4個Transformer塊，通過遞歸精煉回答，在ARC挑戰中取得領先。TRM更進一步，僅700萬參數（4倍小於HRM），使用單層2-layer Transformer，通過交替更新潛在狀態和答案，並利用二元交叉熵損失學習何時停止迭代。TRM目前處理網格輸入（如數獨或迷宮），但其遞歸推理機制為語言推理提供了新思路。

總之，每種替代方案都在效率、性能或推理能力上各有取捨。線性注意力混合模型和代碼世界模型展現出實際應用前景，而文本擴散和小型遞歸模型則開闢了新的研究方向。未來，注意力混合模型有望進一步提升長上下文穩定性和推理精度，擴散模型可能在端側場景找到用武之地，世界模型將拓展到更多領域，而遞歸範式或為輕量級推理提供新路徑。