2026-04-15 04:41 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

我最近在做什么：ATOM报告、后训练课程、完成我的书以及持续的研究

本文回顾了作者近期的各项努力，包括发布ATOM报告更新、完成RLHF书籍并开放预订、制作后训练课程以及参与两项技术研究。同时预告了即将前往中国和华盛顿特区的行程。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

本文是作者近期各项努力的总结，这些内容原本不足以单独成文，但值得分享其进展与成果。

1. ATOM报告：衡量开放语言模型生态系统

伴随2025年8月发布的ATOM项目备忘录——这份备忘录堪称一份宣言，主张美国应投资于开放模型——我们发布了更新版技术报告，包含最新数据、分析和叙事。报告详细介绍了开放语言模型生态系统的现状，涵盖GPT-OSS的崛起、推理市场份额、中国中等玩家（如Moonshot、Z.ai和MiniMax）的影响力，以及美国在开放模型方面的进展。其中重点更新了相对采纳度量（RAM），用于评估新模型的采纳情况。RAM得分设计为>1表示模型在其大小类别中有望进入历史下载量前十。报告还分析了近期Gemma 4的早期采纳数据。

2. RLHF书籍完成并开放预订

作者撰写此书的初衷是填补自己入门后训练时的资源空白。该书的域名于2024年5月20日注册，上周已交付曼宁出版社进入生产流程，预计约两个月后印刷。作者目前正在开发配套代码和课程。书籍已在Amazon和Manning上架预售。

3. 后训练课程制作中

为使书籍成为从入门到专家的核心资源，作者正在制作一系列免费视频课程，发布于YouTube。课程包含社区问答环节，目前已发布欢迎视频及四讲内容，涵盖RLHF概述、基础、策略梯度算法及实现。作者计划夏季进一步开发书籍代码库并举办线下活动。

4. 近期技术研究

作者参与了两篇论文：

TurnWise：探索多轮对话中模型的能力差距、训练数据创建方法及后训练中的特殊问题。作者关注点已转向智能体领域，将多轮交互视为重要的用户界面问题。
元强化学习与自反思在智能体搜索中的应用：该研究将基于RLVR的难题求解视为元学习问题，利用先前尝试的上下文指导后续决策。这项工作与连续学习及测试时学习的相关研究相辅相成。

作者表示未来数月将前往中国（随后可能前往华盛顿特区），以更深入了解全球对AI进展的看法。