麻省理工學院推出SEAL:邁向自我改進AI的新一步
MIT釋出了SEAL框架,使大語言模型能透過強化學習自我編輯和更新權重,加速了AI自我進化的程序。
近年來,AI自我進化一直是研究熱點,大量論文湧現,OpenAI CEO Sam Altman等知名人物也對自我進化智慧系統的未來發表了看法。現在,麻省理工學院(MIT)一篇題為“自我適應語言模型”的論文提出了SEAL(Self-Adapting LLMs)框架,使大語言模型(LLM)能夠更新自身權重。這被視為向真正自我進化AI邁出的又一重要一步。
該論文於近日釋出,已在Hacker News等平臺引發熱議。SEAL的核心是讓LLM透過“自我編輯”生成訓練資料,並基於新輸入更新權重。關鍵在於,自我編輯過程透過強化學習習得,獎勵機制與更新模型在下游任務上的表現掛鉤。
論文釋出時機引人注目。此前,Sakana AI與不列顛哥倫比亞大學的“達爾文-哥德爾機”、卡內基梅隆大學的“自我獎勵訓練”、上海交通大學的“MM-UPT”多模態模型持續自我改進框架,以及香港中文大學與vivo合作的“UI-Genie”自我改進框架等研究已備受關注。此外,Altman在博文“溫和奇點”中描繪了自我改進AI與機器人的未來,稱初始數百萬臺人形機器人需傳統制造,隨後它們能“運營整個供應鏈以製造更多機器人,進而建造更多晶片廠、資料中心等”。隨後,推特使用者@VraserX聲稱OpenAI內部已在執行遞迴自我改進AI,引發真假爭論。
技術層面,SEAL旨在使模型遇到新資料時,透過生成合成資料並自我編輯來最佳化引數。模型訓練目標是直接生成自我編輯(SE),其生成透過強化學習習得:模型獲得獎勵的條件是生成的SE應用後提升目標任務效能。因此,SEAL可視為一個雙層迴圈演算法:外層強化學習迴圈最佳化SE生成,內層更新迴圈透過梯度下降應用SE更新模型。這本質上是元學習,重點關注如何以元學習方式生成有效SE。
SEAL執行於單一任務例項(C,τ),C為任務相關內容,τ為下游評估。模型基於C生成SE,然後透過監督微調更新引數:θ′←SFT(θ,SE)。研究者發現GRPO、PPO等傳統線上策略方法導致訓練不穩定,最終採用DeepMind論文中更簡單的基於過濾的行為克隆方法ReST^EM。該方法可視為期望最大化過程:E步從當前模型策略取樣候選輸出,M步僅強化帶來正獎勵的樣本。當前實現使用單一模型生成和學習SE,但角色可分離為“教師-學生”設定。
MIT團隊在知識整合與少樣本學習兩個領域實現SEAL。少樣本學習中,使用Llama-3.2-1B-Instruct模型,SEAL將適應成功率從20%提升至72.5%(無適應時為0%),雖仍低於理想基線“Oracle TTT”,但進步顯著。知識整合任務中,基於Qwen2.5-7B模型整合SQuAD文章新事實,SEAL持續優於基線方法,僅用兩輪迭代即可超越使用GPT-4.1生成資料的設定。定性示例顯示強化學習使SE更詳細,效能更佳。
研究者也承認SEAL存在侷限性,包括災難性遺忘、計算開銷和上下文依賴評估等問題。論文、專案頁面及程式碼均已公開。