Ahead of AI (Sebastian Raschka) AI 新闻来源

公开文章 11采集文章 12可信度 87刷新频率 720 分钟

健康状态健康来源类型研究原文权限 允许原文最近入库 2026-06-06ID ahead-of-ai运行状态 已启用

Public Substack newsletter; free posts allowed.

最新公开文章

LLM研究论文：2026年列表（1月至5月）

2026-06-06 19:16 UTC+8

作者延续往年习惯，整理并分类了2026年1月至5月间值得关注的LLM研究论文，涵盖架构、训练、推理效率、推理模型、强化学习、智能体系统等多个方向，并重点介绍了混合架构趋势及Nemotron 3等代表性工作。

列表涵盖推理模型、强化学习、高效推理、智能体系统等热门方向
混合架构（如Mamba与注意力层交替）成为2026年重要趋势

LLM架构最新发展：KV共享、mHC与压缩注意力

2026-05-16 19:33 UTC+8

从Gemma 4到DeepSeek V4，本文探讨了新的开源LLM如何通过跨层KV共享、逐层嵌入、注意力预算、压缩卷积注意力和mHC等架构技术降低长上下文成本。

Gemma 4引入跨层KV共享，将KV缓存大小减半，同时保持模型质量。
逐层嵌入（PLE）通过增加小型嵌入参数提高模型容量，而不显著增加计算成本。

我理解LLM架构的工作流程

2026-04-18 19:24 UTC+8

一种学习导向的工作流程，用于理解新发布的开源权重模型。从官方技术报告开始，但论文往往不够详细；然后利用Hugging Face上的配置文件和参考实现来获取架构细节。这个过程主要是手动的，适合开源权重模型，并且手动操作是学习架构的最佳练习之一。

从官方技术报告开始，但论文现在往往不够详细
利用Hugging Face上的配置文件和参考实现来获取架构细节

编码智能体的组成部分

2026-04-04 19:45 UTC+8

本文详细介绍了编码智能体的六大核心组件：实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。通过分析这些组件如何协同工作，解释了为什么精心设计的编码工具（如Claude Code和Codex CLI）能使LLM在编码任务中表现远胜于简单的聊天界面。

编码智能体通过智能体框架（harness）整合仓库上下文、工具使用和记忆管理，显著提升LLM在编码任务中的表现。
六大组件包括：实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。

本文对2026年1月至2月期间发布的十大开源大语言模型进行了架构比较和分析，涵盖Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya，并更新了Sarvam模型。文章重点讨论了混合专家架构、注意力机制创新（如门控注意力、门控DeltaNet、闪电注意力）以及多令牌预测等技术趋势。

十大开源LLM架构对比，涵盖400B到3B参数规模
混合注意力和多令牌预测成为主流技术趋势

提升LLM推理能力的推理时间缩放方法分类

2026-01-24 19:23 UTC+8

推理时间缩放是提升已部署LLM答案质量的最有效方法之一。本文对各类推理时间缩放技术进行了清晰分类，并概述了近期相关论文，包括思维链提示、自一致性、最佳N排序、带验证器的拒绝采样、自我优化以及搜索解决方案路径等方法。作者还分享了在编写相关书籍章节时的个人实验经验。

推理时间缩放通过在推理时增加计算和时间投入来提高模型性能
主要方法包括思维链、自一致性、最佳N排序、拒绝采样等

2025年大语言模型现状：进展、问题与预测

2025-12-30 20:22 UTC+8

本文全面回顾了2025年大语言模型领域的关键进展，包括DeepSeek R1通过RLVR/GRPO实现的推理能力突破、推理时扩展和工具使用的兴起、基准确认过度优化（benchmaxxing）问题，以及对2026年的预测，如扩散模型和RLVR的更广泛应用。

DeepSeek R1的开源推理模型通过RLVR/GRPO主导了2025年，将焦点转向了训练后扩展。
推理时扩展和工具使用成为推动LLM进步的主要动力，超越了传统的预训练扩展。

LLM研究论文：2025年列表（7月至12月）

2025-12-30 20:15 UTC+8

作者为付费订阅者整理了2025年7月至12月期间有趣的研究论文列表，涵盖推理模型、强化学习、架构等多个类别，并附有年度LLM回顾文章的链接。

论文列表作为对支持者的感谢，按类别整理
包含推理模型、强化学习、模型发布、架构等类别

从DeepSeek V3到V3.2：架构、稀疏注意力与强化学习更新

2025-12-03 20:03 UTC+8

本文深入解读DeepSeek V3.2的技术演进，涵盖从V3到V3.2的架构变化（包括稀疏注意力机制DSA）、强化学习更新（如GRPO改进、自我验证与自我精炼）以及混合推理模型的发展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro，并采用开源权重发布，重要性不言而喻。

DeepSeek V3.2采用了与V3.2-Exp相同的稀疏注意力机制（DSA），显著提升长上下文效率。
引入基于DeepSeekMath V2的自我验证与自我精炼技术，大幅增强数学推理能力。

超越标准大语言模型

2025-11-04 21:06 UTC+8

本文探讨了除传统自回归Transformer之外的大语言模型替代架构，包括线性注意力混合模型、文本扩散模型、代码世界模型和小型递归Transformer。文章分析了每种方法在效率、推理和建模性能上的优势与局限，并展望了未来发展方向。

线性注意力混合模型（如Qwen3-Next和Kimi Linear）通过Gated DeltaNet等技术将计算复杂度降至线性，但需在效率和推理精度间取得平衡。
文本扩散模型能并行生成多个token，但面临质量损失和工具集成困难，目前难以取代自回归模型。

理解LLM评估的四种主要方法（从头实现）：多选题、验证器、排行榜和LLM裁判

2025-10-05 19:12 UTC+8

本文详细介绍了评估大型语言模型的四种主要方法：多选题基准（如MMLU）、用于自由形式答案的验证器、基于用户偏好的排行榜（如Chatbot Arena）以及LLM裁判评估。文章提供了从头开始的代码实现，并讨论了每种方法的优缺点。

多选题基准测试知识回忆，但不反映实际使用情况。
验证器允许自由形式答案，但需要可验证的领域（如数学）。

Ahead of AI (Sebastian Raschka)