AI News HubLIVE
站內改寫2 分鐘閱讀

超越標準大語言模型

本文探討了除傳統自迴歸Transformer之外的大語言模型替代架構,包括線性注意力混合模型、文本擴散模型、代碼世界模型和小型遞歸Transformer。文章分析了每種方法在效率、推理和建模性能上的優勢與侷限,並展望了未來發展方向。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

從DeepSeek R1到MiniMax-M2,當前最強大的開源大語言模型(LLM)仍以自迴歸解碼器式Transformer為主,它們基於原始多頭注意力機制的變體。然而,近年湧現出許多替代方案,旨在提高效率或建模性能。本文系統梳理了四大替代方向:線性注意力混合模型、文本擴散模型、代碼世界模型以及小型遞歸Transformer。

線性注意力混合模型:傳統注意力機制的計算複雜度與輸入序列長度呈二次方關係,限制了長上下文處理。線性注意力變體通過核函數近似或門控機制(如Gated DeltaNet)將複雜度降至線性,並採用混合架構——例如Qwen3-Next和Kimi Linear在48層Transformer中以3:1比例交替使用線性注意力和全注意力層。Gated DeltaNet通過循環狀態更新(類似RNN)避免顯式注意力矩陣,並使用α(衰減門)和β(更新門)控制記憶。這使KV緩存大小不再隨上下文增長,Kimi Linear實現75%的KV緩存減少和6倍解碼吞吐量。但MiniMax M2因線性注意力在推理任務中精度不足而回歸常規注意力,顯示該方向仍需突破。

文本擴散模型:借鑑圖像擴散的思路,文本擴散模型通過逐步去噪掩碼序列來並行生成所有token,而不是像自迴歸模型那樣逐個生成。例如,LLaDA模型使用LLaMA架構但移除因果掩碼,訓練目標是擴散去噪而非下一個token預測。理論上擴散模型在生成長序列時更高效,但ParallelBench研究表明,並行解碼可能產生不合理輸出(如“New City”),且質量在低步數時明顯下降。此外,擴散模型難以集成工具鏈。Google的Gemini Diffusion聲稱速度大幅提升,但性能與Gemini 2.0 Flash-Lite相當,尚未廣泛落地。

代碼世界模型(CWM):CWM是首個將世界模型思想引入代碼領域的模型,通過學習代碼執行軌跡來預測變量狀態變化,而不僅僅是文本模式。CWM是一個32B參數的密集解碼器Transformer,支持131K上下文,經過預訓練、中期訓練(引入世界建模)、SFT和RL階段。在SWE-bench上,CWM與gpt-oss-20b持平;使用測試時縮放(best@k策略)後,甚至超越4倍大的gpt-oss-120b。值得注意的是,CWM推理時仍是自迴歸生成,但輸出包含結構化執行軌跡,可視為世界模型增強的LLM。

小型遞歸Transformer:Hierarchical Reasoning Model(HRM)和Tiny Recursive Model(TRM)展示了極小模型在推理上的潛力。HRM僅有4個Transformer塊,通過遞歸精煉回答,在ARC挑戰中取得領先。TRM更進一步,僅700萬參數(4倍小於HRM),使用單層2-layer Transformer,通過交替更新潛在狀態和答案,並利用二元交叉熵損失學習何時停止迭代。TRM目前處理網格輸入(如數獨或迷宮),但其遞歸推理機制為語言推理提供了新思路。

總之,每種替代方案都在效率、性能或推理能力上各有取捨。線性注意力混合模型和代碼世界模型展現出實際應用前景,而文本擴散和小型遞歸模型則開闢了新的研究方向。未來,注意力混合模型有望進一步提升長上下文穩定性和推理精度,擴散模型可能在端側場景找到用武之地,世界模型將拓展到更多領域,而遞歸範式或為輕量級推理提供新路徑。