我最近在做什麼:ATOM報告、後訓練課程、完成我的書以及持續的研究
本文回顧了作者近期的各項努力,包括髮布ATOM報告更新、完成RLHF書籍並開放預訂、製作後訓練課程以及參與兩項技術研究。同時預告了即將前往中國和華盛頓特區的行程。
本文是作者近期各項努力的總結,這些內容原本不足以單獨成文,但值得分享其進展與成果。
1. ATOM報告:衡量開放語言模型生態系統
伴隨2025年8月釋出的ATOM專案備忘錄——這份備忘錄堪稱一份宣言,主張美國應投資於開放模型——我們釋出了更新版技術報告,包含最新資料、分析和敘事。報告詳細介紹了開放語言模型生態系統的現狀,涵蓋GPT-OSS的崛起、推理市場份額、中國中等玩家(如Moonshot、Z.ai和MiniMax)的影響力,以及美國在開放模型方面的進展。其中重點更新了相對採納度量(RAM),用於評估新模型的採納情況。RAM得分設計為>1表示模型在其大小類別中有望進入歷史下載量前十。報告還分析了近期Gemma 4的早期採納資料。
2. RLHF書籍完成並開放預訂
作者撰寫此書的初衷是填補自己入門後訓練時的資源空白。該書的域名於2024年5月20日註冊,上週已交付曼寧出版社進入生產流程,預計約兩個月後印刷。作者目前正在開發配套程式碼和課程。書籍已在Amazon和Manning上架預售。
3. 後訓練課程製作中
為使書籍成為從入門到專家的核心資源,作者正在製作一系列免費影片課程,釋出於YouTube。課程包含社群問答環節,目前已釋出歡迎影片及四講內容,涵蓋RLHF概述、基礎、策略梯度演算法及實現。作者計劃夏季進一步開發書籍程式碼庫並舉辦線下活動。
4. 近期技術研究
作者參與了兩篇論文:
- TurnWise:探索多輪對話中模型的能力差距、訓練資料建立方法及後訓練中的特殊問題。作者關注點已轉向智慧體領域,將多輪互動視為重要的使用者介面問題。
- 元強化學習與自反思在智慧體搜尋中的應用:該研究將基於RLVR的難題求解視為元學習問題,利用先前嘗試的上下文指導後續決策。這項工作與連續學習及測試時學習的相關研究相輔相成。
作者表示未來數月將前往中國(隨後可能前往華盛頓特區),以更深入瞭解全球對AI進展的看法。