2025-06-16 20:58 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

麻省理工學院推出SEAL：邁向自我改進AI的新一步

MIT釋出了SEAL框架，使大語言模型能透過強化學習自我編輯和更新權重，加速了AI自我進化的程序。

來源Synced Review作者: Synced

近年來，AI自我進化一直是研究熱點，大量論文湧現，OpenAI CEO Sam Altman等知名人物也對自我進化智慧系統的未來發表了看法。現在，麻省理工學院（MIT）一篇題為“自我適應語言模型”的論文提出了SEAL（Self-Adapting LLMs）框架，使大語言模型（LLM）能夠更新自身權重。這被視為向真正自我進化AI邁出的又一重要一步。

該論文於近日釋出，已在Hacker News等平臺引發熱議。SEAL的核心是讓LLM透過“自我編輯”生成訓練資料，並基於新輸入更新權重。關鍵在於，自我編輯過程透過強化學習習得，獎勵機制與更新模型在下游任務上的表現掛鉤。

論文釋出時機引人注目。此前，Sakana AI與不列顛哥倫比亞大學的“達爾文-哥德爾機”、卡內基梅隆大學的“自我獎勵訓練”、上海交通大學的“MM-UPT”多模態模型持續自我改進框架，以及香港中文大學與vivo合作的“UI-Genie”自我改進框架等研究已備受關注。此外，Altman在博文“溫和奇點”中描繪了自我改進AI與機器人的未來，稱初始數百萬臺人形機器人需傳統制造，隨後它們能“運營整個供應鏈以製造更多機器人，進而建造更多晶片廠、資料中心等”。隨後，推特使用者@VraserX聲稱OpenAI內部已在執行遞迴自我改進AI，引發真假爭論。

技術層面，SEAL旨在使模型遇到新資料時，透過生成合成資料並自我編輯來最佳化引數。模型訓練目標是直接生成自我編輯（SE），其生成透過強化學習習得：模型獲得獎勵的條件是生成的SE應用後提升目標任務效能。因此，SEAL可視為一個雙層迴圈演算法：外層強化學習迴圈最佳化SE生成，內層更新迴圈透過梯度下降應用SE更新模型。這本質上是元學習，重點關注如何以元學習方式生成有效SE。

SEAL執行於單一任務例項(C,τ)，C為任務相關內容，τ為下游評估。模型基於C生成SE，然後透過監督微調更新引數：θ′←SFT(θ,SE)。研究者發現GRPO、PPO等傳統線上策略方法導致訓練不穩定，最終採用DeepMind論文中更簡單的基於過濾的行為克隆方法ReST^EM。該方法可視為期望最大化過程：E步從當前模型策略取樣候選輸出，M步僅強化帶來正獎勵的樣本。當前實現使用單一模型生成和學習SE，但角色可分離為“教師-學生”設定。

MIT團隊在知識整合與少樣本學習兩個領域實現SEAL。少樣本學習中，使用Llama-3.2-1B-Instruct模型，SEAL將適應成功率從20%提升至72.5%（無適應時為0%），雖仍低於理想基線“Oracle TTT”，但進步顯著。知識整合任務中，基於Qwen2.5-7B模型整合SQuAD文章新事實，SEAL持續優於基線方法，僅用兩輪迭代即可超越使用GPT-4.1生成資料的設定。定性示例顯示強化學習使SE更詳細，效能更佳。

研究者也承認SEAL存在侷限性，包括災難性遺忘、計算開銷和上下文依賴評估等問題。論文、專案頁面及程式碼均已公開。