AI News HubLIVE
站內改寫1 分鐘閱讀

我最近在做什麼:ATOM報告、後訓練課程、完成我的書以及持續的研究

本文回顧了作者近期的各項努力,包括髮布ATOM報告更新、完成RLHF書籍並開放預訂、製作後訓練課程以及參與兩項技術研究。同時預告了即將前往中國和華盛頓特區的行程。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

本文是作者近期各項努力的總結,這些內容原本不足以單獨成文,但值得分享其進展與成果。

1. ATOM報告:衡量開放語言模型生態系統

伴隨2025年8月發佈的ATOM項目備忘錄——這份備忘錄堪稱一份宣言,主張美國應投資於開放模型——我們發佈了更新版技術報告,包含最新數據、分析和敍事。報告詳細介紹了開放語言模型生態系統的現狀,涵蓋GPT-OSS的崛起、推理市場份額、中國中等玩家(如Moonshot、Z.ai和MiniMax)的影響力,以及美國在開放模型方面的進展。其中重點更新了相對採納度量(RAM),用於評估新模型的採納情況。RAM得分設計為>1表示模型在其大小類別中有望進入歷史下載量前十。報告還分析了近期Gemma 4的早期採納數據。

2. RLHF書籍完成並開放預訂

作者撰寫此書的初衷是填補自己入門後訓練時的資源空白。該書的域名於2024年5月20日註冊,上週已交付曼寧出版社進入生產流程,預計約兩個月後印刷。作者目前正在開發配套代碼和課程。書籍已在Amazon和Manning上架預售。

3. 後訓練課程製作中

為使書籍成為從入門到專家的核心資源,作者正在製作一系列免費視頻課程,發佈於YouTube。課程包含社區問答環節,目前已發佈歡迎視頻及四講內容,涵蓋RLHF概述、基礎、策略梯度算法及實現。作者計劃夏季進一步開發書籍代碼庫並舉辦線下活動。

4. 近期技術研究

作者參與了兩篇論文:

  • TurnWise:探索多輪對話中模型的能力差距、訓練數據創建方法及後訓練中的特殊問題。作者關注點已轉向智能體領域,將多輪交互視為重要的用户界面問題。
  • 元強化學習與自反思在智能體搜索中的應用:該研究將基於RLVR的難題求解視為元學習問題,利用先前嘗試的上下文指導後續決策。這項工作與連續學習及測試時學習的相關研究相輔相成。

作者表示未來數月將前往中國(隨後可能前往華盛頓特區),以更深入瞭解全球對AI進展的看法。