LLM研究論文:2026年列表(1月至5月)
作者延續往年習慣,整理並分類了2026年1月至5月間值得關注的LLM研究論文,涵蓋架構、訓練、推理效率、推理模型、強化學習、智慧體系統等多個方向,並重點介紹了混合架構趨勢及Nemotron 3等代表性工作。
- 列表涵蓋推理模型、強化學習、高效推理、智慧體系統等熱門方向
- 混合架構(如Mamba與注意力層交替)成為2026年重要趨勢
來源詳情
AI News Hub 持續追蹤 Ahead of AI (Sebastian Raschka) 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Public Substack newsletter; free posts allowed.
作者延續往年習慣,整理並分類了2026年1月至5月間值得關注的LLM研究論文,涵蓋架構、訓練、推理效率、推理模型、強化學習、智慧體系統等多個方向,並重點介紹了混合架構趨勢及Nemotron 3等代表性工作。
從Gemma 4到DeepSeek V4,本文探討了新的開源LLM如何透過跨層KV共享、逐層嵌入、注意力預算、壓縮卷積注意力和mHC等架構技術降低長上下文成本。
一種學習導向的工作流程,用於理解新發布的開源權重模型。從官方技術報告開始,但論文往往不夠詳細;然後利用Hugging Face上的配置檔案和參考實現來獲取架構細節。這個過程主要是手動的,適合開源權重模型,並且手動操作是學習架構的最佳練習之一。
本文詳細介紹了編碼智慧體的六大核心元件:即時倉庫上下文、提示形狀與快取重用、工具訪問與使用、最小化上下文膨脹、結構化會話記憶以及委派子智慧體。透過分析這些元件如何協同工作,解釋了為什麼精心設計的編碼工具(如Claude Code和Codex CLI)能使LLM在編碼任務中表現遠勝於簡單的聊天介面。
本文對2026年1月至2月期間釋出的十大開源大語言模型進行了架構比較和分析,涵蓋Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,並更新了Sarvam模型。文章重點討論了混合專家架構、注意力機制創新(如門控注意力、門控DeltaNet、閃電注意力)以及多令牌預測等技術趨勢。
推理時間縮放是提升已部署LLM答案質量的最有效方法之一。本文對各類推理時間縮放技術進行了清晰分類,並概述了近期相關論文,包括思維鏈提示、自一致性、最佳N排序、帶驗證器的拒絕取樣、自我最佳化以及搜尋解決方案路徑等方法。作者還分享了在編寫相關書籍章節時的個人實驗經驗。
本文全面回顧了2025年大語言模型領域的關鍵進展,包括DeepSeek R1透過RLVR/GRPO實現的推理能力突破、推理時擴充套件和工具使用的興起、基準確認過度最佳化(benchmaxxing)問題,以及對2026年的預測,如擴散模型和RLVR的更廣泛應用。
作者為付費訂閱者整理了2025年7月至12月期間有趣的研究論文列表,涵蓋推理模型、強化學習、架構等多個類別,並附有年度LLM回顧文章的連結。
本文深入解讀DeepSeek V3.2的技術演進,涵蓋從V3到V3.2的架構變化(包括稀疏注意力機制DSA)、強化學習更新(如GRPO改進、自我驗證與自我精煉)以及混合推理模型的發展。V3.2在效能上媲美GPT-5和Gemini 3.0 Pro,並採用開源權重發布,重要性不言而喻。
本文探討了除傳統自迴歸Transformer之外的大語言模型替代架構,包括線性注意力混合模型、文本擴散模型、程式碼世界模型和小型遞迴Transformer。文章分析了每種方法在效率、推理和建模效能上的優勢與侷限,並展望了未來發展方向。
本文詳細介紹了評估大型語言模型的四種主要方法:多選題基準(如MMLU)、用於自由形式答案的驗證器、基於使用者偏好的排行榜(如Chatbot Arena)以及LLM裁判評估。文章提供了從頭開始的程式碼實現,並討論了每種方法的優缺點。