麻省理工學院推出SEAL:邁向自我改進AI的新一步
MIT發佈了SEAL框架,使大語言模型能通過強化學習自我編輯和更新權重,加速了AI自我進化的進程。
近年來,AI自我進化一直是研究熱點,大量論文湧現,OpenAI CEO Sam Altman等知名人物也對自我進化智能系統的未來發表了看法。現在,麻省理工學院(MIT)一篇題為“自我適應語言模型”的論文提出了SEAL(Self-Adapting LLMs)框架,使大語言模型(LLM)能夠更新自身權重。這被視為向真正自我進化AI邁出的又一重要一步。
該論文於近日發佈,已在Hacker News等平台引發熱議。SEAL的核心是讓LLM通過“自我編輯”生成訓練數據,並基於新輸入更新權重。關鍵在於,自我編輯過程通過強化學習習得,獎勵機制與更新模型在下游任務上的表現掛鈎。
論文發佈時機引人注目。此前,Sakana AI與不列顛哥倫比亞大學的“達爾文-哥德爾機”、卡內基梅隆大學的“自我獎勵訓練”、上海交通大學的“MM-UPT”多模態模型持續自我改進框架,以及香港中文大學與vivo合作的“UI-Genie”自我改進框架等研究已備受關注。此外,Altman在博文“温和奇點”中描繪了自我改進AI與機器人的未來,稱初始數百萬台人形機器人需傳統制造,隨後它們能“運營整個供應鏈以製造更多機器人,進而建造更多芯片廠、數據中心等”。隨後,推特用户@VraserX聲稱OpenAI內部已在運行遞歸自我改進AI,引發真假爭論。
技術層面,SEAL旨在使模型遇到新數據時,通過生成合成數據並自我編輯來優化參數。模型訓練目標是直接生成自我編輯(SE),其生成通過強化學習習得:模型獲得獎勵的條件是生成的SE應用後提升目標任務性能。因此,SEAL可視為一個雙層循環算法:外層強化學習循環優化SE生成,內層更新循環通過梯度下降應用SE更新模型。這本質上是元學習,重點關注如何以元學習方式生成有效SE。
SEAL運行於單一任務實例(C,τ),C為任務相關內容,τ為下游評估。模型基於C生成SE,然後通過監督微調更新參數:θ′←SFT(θ,SE)。研究者發現GRPO、PPO等傳統在線策略方法導致訓練不穩定,最終採用DeepMind論文中更簡單的基於過濾的行為克隆方法ReST^EM。該方法可視為期望最大化過程:E步從當前模型策略採樣候選輸出,M步僅強化帶來正獎勵的樣本。當前實現使用單一模型生成和學習SE,但角色可分離為“教師-學生”設置。
MIT團隊在知識整合與少樣本學習兩個領域實現SEAL。少樣本學習中,使用Llama-3.2-1B-Instruct模型,SEAL將適應成功率從20%提升至72.5%(無適應時為0%),雖仍低於理想基線“Oracle TTT”,但進步顯著。知識整合任務中,基於Qwen2.5-7B模型整合SQuAD文章新事實,SEAL持續優於基線方法,僅用兩輪迭代即可超越使用GPT-4.1生成數據的設置。定性示例顯示強化學習使SE更詳細,性能更佳。
研究者也承認SEAL存在侷限性,包括災難性遺忘、計算開銷和上下文依賴評估等問題。論文、項目頁面及代碼均已公開。