AI News HubLIVE
站内改写1 分钟阅读

我最近在做什么:ATOM报告、后训练课程、完成我的书以及持续的研究

本文回顾了作者近期的各项努力,包括发布ATOM报告更新、完成RLHF书籍并开放预订、制作后训练课程以及参与两项技术研究。同时预告了即将前往中国和华盛顿特区的行程。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

本文是作者近期各项努力的总结,这些内容原本不足以单独成文,但值得分享其进展与成果。

1. ATOM报告:衡量开放语言模型生态系统

伴随2025年8月发布的ATOM项目备忘录——这份备忘录堪称一份宣言,主张美国应投资于开放模型——我们发布了更新版技术报告,包含最新数据、分析和叙事。报告详细介绍了开放语言模型生态系统的现状,涵盖GPT-OSS的崛起、推理市场份额、中国中等玩家(如Moonshot、Z.ai和MiniMax)的影响力,以及美国在开放模型方面的进展。其中重点更新了相对采纳度量(RAM),用于评估新模型的采纳情况。RAM得分设计为>1表示模型在其大小类别中有望进入历史下载量前十。报告还分析了近期Gemma 4的早期采纳数据。

2. RLHF书籍完成并开放预订

作者撰写此书的初衷是填补自己入门后训练时的资源空白。该书的域名于2024年5月20日注册,上周已交付曼宁出版社进入生产流程,预计约两个月后印刷。作者目前正在开发配套代码和课程。书籍已在Amazon和Manning上架预售。

3. 后训练课程制作中

为使书籍成为从入门到专家的核心资源,作者正在制作一系列免费视频课程,发布于YouTube。课程包含社区问答环节,目前已发布欢迎视频及四讲内容,涵盖RLHF概述、基础、策略梯度算法及实现。作者计划夏季进一步开发书籍代码库并举办线下活动。

4. 近期技术研究

作者参与了两篇论文:

  • TurnWise:探索多轮对话中模型的能力差距、训练数据创建方法及后训练中的特殊问题。作者关注点已转向智能体领域,将多轮交互视为重要的用户界面问题。
  • 元强化学习与自反思在智能体搜索中的应用:该研究将基于RLVR的难题求解视为元学习问题,利用先前尝试的上下文指导后续决策。这项工作与连续学习及测试时学习的相关研究相辅相成。

作者表示未来数月将前往中国(随后可能前往华盛顿特区),以更深入了解全球对AI进展的看法。