LLM研究论文:2026年列表(1月至5月)
作者延续往年习惯,整理并分类了2026年1月至5月间值得关注的LLM研究论文,涵盖架构、训练、推理效率、推理模型、强化学习、智能体系统等多个方向,并重点介绍了混合架构趋势及Nemotron 3等代表性工作。
- 列表涵盖推理模型、强化学习、高效推理、智能体系统等热门方向
- 混合架构(如Mamba与注意力层交替)成为2026年重要趋势
来源详情
AI News Hub 持续跟踪 Ahead of AI (Sebastian Raschka) 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Public Substack newsletter; free posts allowed.
作者延续往年习惯,整理并分类了2026年1月至5月间值得关注的LLM研究论文,涵盖架构、训练、推理效率、推理模型、强化学习、智能体系统等多个方向,并重点介绍了混合架构趋势及Nemotron 3等代表性工作。
从Gemma 4到DeepSeek V4,本文探讨了新的开源LLM如何通过跨层KV共享、逐层嵌入、注意力预算、压缩卷积注意力和mHC等架构技术降低长上下文成本。
一种学习导向的工作流程,用于理解新发布的开源权重模型。从官方技术报告开始,但论文往往不够详细;然后利用Hugging Face上的配置文件和参考实现来获取架构细节。这个过程主要是手动的,适合开源权重模型,并且手动操作是学习架构的最佳练习之一。
本文详细介绍了编码智能体的六大核心组件:实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。通过分析这些组件如何协同工作,解释了为什么精心设计的编码工具(如Claude Code和Codex CLI)能使LLM在编码任务中表现远胜于简单的聊天界面。
本文对2026年1月至2月期间发布的十大开源大语言模型进行了架构比较和分析,涵盖Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,并更新了Sarvam模型。文章重点讨论了混合专家架构、注意力机制创新(如门控注意力、门控DeltaNet、闪电注意力)以及多令牌预测等技术趋势。
推理时间缩放是提升已部署LLM答案质量的最有效方法之一。本文对各类推理时间缩放技术进行了清晰分类,并概述了近期相关论文,包括思维链提示、自一致性、最佳N排序、带验证器的拒绝采样、自我优化以及搜索解决方案路径等方法。作者还分享了在编写相关书籍章节时的个人实验经验。
本文全面回顾了2025年大语言模型领域的关键进展,包括DeepSeek R1通过RLVR/GRPO实现的推理能力突破、推理时扩展和工具使用的兴起、基准确认过度优化(benchmaxxing)问题,以及对2026年的预测,如扩散模型和RLVR的更广泛应用。
作者为付费订阅者整理了2025年7月至12月期间有趣的研究论文列表,涵盖推理模型、强化学习、架构等多个类别,并附有年度LLM回顾文章的链接。
本文深入解读DeepSeek V3.2的技术演进,涵盖从V3到V3.2的架构变化(包括稀疏注意力机制DSA)、强化学习更新(如GRPO改进、自我验证与自我精炼)以及混合推理模型的发展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro,并采用开源权重发布,重要性不言而喻。
本文探讨了除传统自回归Transformer之外的大语言模型替代架构,包括线性注意力混合模型、文本扩散模型、代码世界模型和小型递归Transformer。文章分析了每种方法在效率、推理和建模性能上的优势与局限,并展望了未来发展方向。
本文详细介绍了评估大型语言模型的四种主要方法:多选题基准(如MMLU)、用于自由形式答案的验证器、基于用户偏好的排行榜(如Chatbot Arena)以及LLM裁判评估。文章提供了从头开始的代码实现,并讨论了每种方法的优缺点。