AI News HubLIVE
站內改寫3 分鐘閱讀

DeepSeek 預告下一代 R2 模型,推出 SPCT 實現推理擴展新方法

DeepSeek AI 發佈新論文,提出自原則批評調優(SPCT)方法,旨在增強通用獎勵模型在推理階段的擴展性。同時暗示下一代模型 R2 即將到來,引發業界關注。

來源Synced Review作者: Synced

DeepSeek AI,作為大語言模型領域的重要參與者,近日發表了一篇研究論文,詳細介紹了一種旨在增強通用獎勵模型(GRM)在推理階段擴展性的新技術。同時,該公司暗示其下一代模型 R2 即將到來,引發了 AI 社區的廣泛期待。

該論文題為《推理時間擴展泛化獎勵建模》,提出了一種新穎方法,使 GRM 能夠通過動態生成原則和批評來優化獎勵生成,這是通過拒絕微調和基於規則的在線強化學習實現的。這一進展正值大語言模型擴展範式從預訓練轉向後訓練(尤其是推理階段)的時期,以 OpenAI 的 o1 等模型為代表。o1 在響應用户之前會生成長內部思維鏈,不斷完善推理過程、探索不同策略並識別自身錯誤。DeepSeek 自家的 R1 系列模型進一步驗證了純強化學習訓練(無需監督微調)在提升大語言模型推理能力方面的巨大潛力。

大語言模型基本的“下一個 token 預測”機制雖然提供了廣泛知識,但往往缺乏深度規劃和長期結果預測能力,容易導致短視決策。強化學習作為一個關鍵補充,為大語言模型提供了“內部世界模型”,使其能夠模擬不同推理路徑的潛在結果,評估路徑質量並選擇更優解決方案,從而實現更系統的長期規劃。大語言模型與強化學習之間的協同作用日益被認為是增強複雜問題解決能力的關鍵。

清華大學交叉信息研究院助理教授吳翼在最近的一次播客中將大語言模型與強化學習的關係比作“乘法關係”。他指出,強化學習擅長決策,但本質上缺乏理解,理解能力的構建依賴於預訓練模型,在此基礎上強化學習才能進一步優化決策能力。這種“乘法關係”表明,只有在預訓練階段建立起強大的理解、記憶和邏輯推理基礎時,強化學習才能充分釋放其潛力,創建完整的智能體。

一篇題為《強化學習增強大語言模型:綜述》的綜合性調查論文概述了使用強化學習訓練大語言模型的典型三步過程:首先訓練獎勵模型以近似人類偏好並評估不同輸出;然後在每次微調迭代中,大語言模型生成多個響應,並用獎勵模型評分;最後使用強化學習優化技術根據偏好分數更新模型權重。集成強化學習使大語言模型能夠根據變化的偏好分數動態調整,超越單一預定答案的限制。

DeepSeek 的 SPCT:應對大語言模型強化學習擴展挑戰

儘管強化學習在後訓練中取得了成功,成為提升大語言模型性能的突破口,但強化學習算法本身仍有很大改進空間,其“規模定律”尚處於早期階段。與傳統規模定律關注增加數據和計算量以提升性能不同,強化學習的規模定律受更復雜因素影響,包括樣本吞吐量、模型參數規模和訓練環境的複雜性。強化學習擴展的一大障礙是獎勵稀疏性。獎勵模型是關鍵組件,生成準確的獎勵信號至關重要。實現獎勵模型的泛化和連續性是一個重點。

DeepSeek 和清華大學的研究人員在近期工作中解決了這一挑戰,探索了推理時獎勵模型的可擴展性和泛化性。他們提出的自原則批評調優(SPCT)方法旨在提高推理階段通用獎勵建模的可擴展性。SPCT 方法包括兩個關鍵階段:拒絕微調(作為冷啓動,使 GRM 適應以正確格式和類型生成原則和批評)和基於規則的在線強化學習(進一步優化原則和批評的生成)。

為了實現有效的推理時間擴展,研究人員採用並行採樣以最大化計算利用率。通過多次採樣,DeepSeek-GRM 可以生成不同的原則和批評,並通過投票選擇最終獎勵。此外,還訓練了一個元獎勵模型來指導投票過程,進一步提升擴展性能。元獎勵模型是一個點對點標量獎勵模型,旨在識別 DeepSeek-GRM 生成的原則和批評的正確性。實驗結果表明,SPCT 顯著提高了 GRM 的質量和可擴展性,在多個綜合 RM 基準測試上優於現有方法和模型,且無明顯領域偏差。

展望未來:DeepSeek R2 即將到來

雖然研究論文側重於獎勵建模和推理時間擴展的進展,但對 DeepSeek R1 系列的提及和隱含的進展表明,該公司正在積極開發其下一代模型 R2。鑑於 DeepSeek 強調純強化學習來增強推理能力,業界高度期待 R2 將融合並建立在最新可擴展獎勵模型研究的見解之上。AI 社區將密切關注 DeepSeek R2 的進一步公告,期待看到該公司如何利用其在強化學習和推理優化方面的創新方法,推動大語言模型能力的前沿。對可擴展獎勵模型的關注暗示其下一代旗艦模型可能更加註重複雜的自我評估和改進機制。

論文《推理時間擴展泛化獎勵建模》可在 arXiv 上查閲。