2026-04-15 04:41 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

我最近在做什麼：ATOM報告、後訓練課程、完成我的書以及持續的研究

本文回顧了作者近期的各項努力，包括髮布ATOM報告更新、完成RLHF書籍並開放預訂、製作後訓練課程以及參與兩項技術研究。同時預告了即將前往中國和華盛頓特區的行程。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

本文是作者近期各項努力的總結，這些內容原本不足以單獨成文，但值得分享其進展與成果。

1. ATOM報告：衡量開放語言模型生態系統

伴隨2025年8月釋出的ATOM專案備忘錄——這份備忘錄堪稱一份宣言，主張美國應投資於開放模型——我們釋出了更新版技術報告，包含最新資料、分析和敘事。報告詳細介紹了開放語言模型生態系統的現狀，涵蓋GPT-OSS的崛起、推理市場份額、中國中等玩家（如Moonshot、Z.ai和MiniMax）的影響力，以及美國在開放模型方面的進展。其中重點更新了相對採納度量（RAM），用於評估新模型的採納情況。RAM得分設計為>1表示模型在其大小類別中有望進入歷史下載量前十。報告還分析了近期Gemma 4的早期採納資料。

2. RLHF書籍完成並開放預訂

作者撰寫此書的初衷是填補自己入門後訓練時的資源空白。該書的域名於2024年5月20日註冊，上週已交付曼寧出版社進入生產流程，預計約兩個月後印刷。作者目前正在開發配套程式碼和課程。書籍已在Amazon和Manning上架預售。

3. 後訓練課程製作中

為使書籍成為從入門到專家的核心資源，作者正在製作一系列免費影片課程，釋出於YouTube。課程包含社群問答環節，目前已釋出歡迎影片及四講內容，涵蓋RLHF概述、基礎、策略梯度演算法及實現。作者計劃夏季進一步開發書籍程式碼庫並舉辦線下活動。

4. 近期技術研究

作者參與了兩篇論文：

TurnWise：探索多輪對話中模型的能力差距、訓練資料建立方法及後訓練中的特殊問題。作者關注點已轉向智慧體領域，將多輪互動視為重要的使用者介面問題。
元強化學習與自反思在智慧體搜尋中的應用：該研究將基於RLVR的難題求解視為元學習問題，利用先前嘗試的上下文指導後續決策。這項工作與連續學習及測試時學習的相關研究相輔相成。

作者表示未來數月將前往中國（隨後可能前往華盛頓特區），以更深入瞭解全球對AI進展的看法。