AI News HubLIVE
公开文章 11采集文章 12可信度 87刷新频率 720 分钟
健康状态 健康来源类型 研究原文权限 允许原文最近入库 2026-06-06ID ahead-of-ai运行状态 已启用

Public Substack newsletter; free posts allowed.

最新公开文章

LLM研究论文:2026年列表(1月至5月)

作者延续往年习惯,整理并分类了2026年1月至5月间值得关注的LLM研究论文,涵盖架构、训练、推理效率、推理模型、强化学习、智能体系统等多个方向,并重点介绍了混合架构趋势及Nemotron 3等代表性工作。

  • 列表涵盖推理模型、强化学习、高效推理、智能体系统等热门方向
  • 混合架构(如Mamba与注意力层交替)成为2026年重要趋势
站内正文

LLM架构最新发展:KV共享、mHC与压缩注意力

从Gemma 4到DeepSeek V4,本文探讨了新的开源LLM如何通过跨层KV共享、逐层嵌入、注意力预算、压缩卷积注意力和mHC等架构技术降低长上下文成本。

  • Gemma 4引入跨层KV共享,将KV缓存大小减半,同时保持模型质量。
  • 逐层嵌入(PLE)通过增加小型嵌入参数提高模型容量,而不显著增加计算成本。
站内正文

我理解LLM架构的工作流程

一种学习导向的工作流程,用于理解新发布的开源权重模型。从官方技术报告开始,但论文往往不够详细;然后利用Hugging Face上的配置文件和参考实现来获取架构细节。这个过程主要是手动的,适合开源权重模型,并且手动操作是学习架构的最佳练习之一。

  • 从官方技术报告开始,但论文现在往往不够详细
  • 利用Hugging Face上的配置文件和参考实现来获取架构细节
站内正文

编码智能体的组成部分

本文详细介绍了编码智能体的六大核心组件:实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。通过分析这些组件如何协同工作,解释了为什么精心设计的编码工具(如Claude Code和Codex CLI)能使LLM在编码任务中表现远胜于简单的聊天界面。

  • 编码智能体通过智能体框架(harness)整合仓库上下文、工具使用和记忆管理,显著提升LLM在编码任务中的表现。
  • 六大组件包括:实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。
站内正文

开源大模型之春:2026年1-2月十大架构盘点

本文对2026年1月至2月期间发布的十大开源大语言模型进行了架构比较和分析,涵盖Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,并更新了Sarvam模型。文章重点讨论了混合专家架构、注意力机制创新(如门控注意力、门控DeltaNet、闪电注意力)以及多令牌预测等技术趋势。

  • 十大开源LLM架构对比,涵盖400B到3B参数规模
  • 混合注意力和多令牌预测成为主流技术趋势
站内正文

提升LLM推理能力的推理时间缩放方法分类

推理时间缩放是提升已部署LLM答案质量的最有效方法之一。本文对各类推理时间缩放技术进行了清晰分类,并概述了近期相关论文,包括思维链提示、自一致性、最佳N排序、带验证器的拒绝采样、自我优化以及搜索解决方案路径等方法。作者还分享了在编写相关书籍章节时的个人实验经验。

  • 推理时间缩放通过在推理时增加计算和时间投入来提高模型性能
  • 主要方法包括思维链、自一致性、最佳N排序、拒绝采样等
站内正文

2025年大语言模型现状:进展、问题与预测

本文全面回顾了2025年大语言模型领域的关键进展,包括DeepSeek R1通过RLVR/GRPO实现的推理能力突破、推理时扩展和工具使用的兴起、基准确认过度优化(benchmaxxing)问题,以及对2026年的预测,如扩散模型和RLVR的更广泛应用。

  • DeepSeek R1的开源推理模型通过RLVR/GRPO主导了2025年,将焦点转向了训练后扩展。
  • 推理时扩展和工具使用成为推动LLM进步的主要动力,超越了传统的预训练扩展。
站内正文

LLM研究论文:2025年列表(7月至12月)

作者为付费订阅者整理了2025年7月至12月期间有趣的研究论文列表,涵盖推理模型、强化学习、架构等多个类别,并附有年度LLM回顾文章的链接。

  • 论文列表作为对支持者的感谢,按类别整理
  • 包含推理模型、强化学习、模型发布、架构等类别
站内正文

从DeepSeek V3到V3.2:架构、稀疏注意力与强化学习更新

本文深入解读DeepSeek V3.2的技术演进,涵盖从V3到V3.2的架构变化(包括稀疏注意力机制DSA)、强化学习更新(如GRPO改进、自我验证与自我精炼)以及混合推理模型的发展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro,并采用开源权重发布,重要性不言而喻。

  • DeepSeek V3.2采用了与V3.2-Exp相同的稀疏注意力机制(DSA),显著提升长上下文效率。
  • 引入基于DeepSeekMath V2的自我验证与自我精炼技术,大幅增强数学推理能力。
站内正文

超越标准大语言模型

本文探讨了除传统自回归Transformer之外的大语言模型替代架构,包括线性注意力混合模型、文本扩散模型、代码世界模型和小型递归Transformer。文章分析了每种方法在效率、推理和建模性能上的优势与局限,并展望了未来发展方向。

  • 线性注意力混合模型(如Qwen3-Next和Kimi Linear)通过Gated DeltaNet等技术将计算复杂度降至线性,但需在效率和推理精度间取得平衡。
  • 文本扩散模型能并行生成多个token,但面临质量损失和工具集成困难,目前难以取代自回归模型。
站内正文

理解LLM评估的四种主要方法(从头实现):多选题、验证器、排行榜和LLM裁判

本文详细介绍了评估大型语言模型的四种主要方法:多选题基准(如MMLU)、用于自由形式答案的验证器、基于用户偏好的排行榜(如Chatbot Arena)以及LLM裁判评估。文章提供了从头开始的代码实现,并讨论了每种方法的优缺点。

  • 多选题基准测试知识回忆,但不反映实际使用情况。
  • 验证器允许自由形式答案,但需要可验证的领域(如数学)。
站内正文

全部来源