2025-06-16 20:58 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

麻省理工學院推出SEAL：邁向自我改進AI的新一步

MIT發佈了SEAL框架，使大語言模型能通過強化學習自我編輯和更新權重，加速了AI自我進化的進程。

來源Synced Review作者: Synced

近年來，AI自我進化一直是研究熱點，大量論文湧現，OpenAI CEO Sam Altman等知名人物也對自我進化智能系統的未來發表了看法。現在，麻省理工學院（MIT）一篇題為“自我適應語言模型”的論文提出了SEAL（Self-Adapting LLMs）框架，使大語言模型（LLM）能夠更新自身權重。這被視為向真正自我進化AI邁出的又一重要一步。

該論文於近日發佈，已在Hacker News等平台引發熱議。SEAL的核心是讓LLM通過“自我編輯”生成訓練數據，並基於新輸入更新權重。關鍵在於，自我編輯過程通過強化學習習得，獎勵機制與更新模型在下游任務上的表現掛鈎。

論文發佈時機引人注目。此前，Sakana AI與不列顛哥倫比亞大學的“達爾文-哥德爾機”、卡內基梅隆大學的“自我獎勵訓練”、上海交通大學的“MM-UPT”多模態模型持續自我改進框架，以及香港中文大學與vivo合作的“UI-Genie”自我改進框架等研究已備受關注。此外，Altman在博文“温和奇點”中描繪了自我改進AI與機器人的未來，稱初始數百萬台人形機器人需傳統制造，隨後它們能“運營整個供應鏈以製造更多機器人，進而建造更多芯片廠、數據中心等”。隨後，推特用户@VraserX聲稱OpenAI內部已在運行遞歸自我改進AI，引發真假爭論。

技術層面，SEAL旨在使模型遇到新數據時，通過生成合成數據並自我編輯來優化參數。模型訓練目標是直接生成自我編輯（SE），其生成通過強化學習習得：模型獲得獎勵的條件是生成的SE應用後提升目標任務性能。因此，SEAL可視為一個雙層循環算法：外層強化學習循環優化SE生成，內層更新循環通過梯度下降應用SE更新模型。這本質上是元學習，重點關注如何以元學習方式生成有效SE。

SEAL運行於單一任務實例(C,τ)，C為任務相關內容，τ為下游評估。模型基於C生成SE，然後通過監督微調更新參數：θ′←SFT(θ,SE)。研究者發現GRPO、PPO等傳統在線策略方法導致訓練不穩定，最終採用DeepMind論文中更簡單的基於過濾的行為克隆方法ReST^EM。該方法可視為期望最大化過程：E步從當前模型策略採樣候選輸出，M步僅強化帶來正獎勵的樣本。當前實現使用單一模型生成和學習SE，但角色可分離為“教師-學生”設置。

MIT團隊在知識整合與少樣本學習兩個領域實現SEAL。少樣本學習中，使用Llama-3.2-1B-Instruct模型，SEAL將適應成功率從20%提升至72.5%（無適應時為0%），雖仍低於理想基線“Oracle TTT”，但進步顯著。知識整合任務中，基於Qwen2.5-7B模型整合SQuAD文章新事實，SEAL持續優於基線方法，僅用兩輪迭代即可超越使用GPT-4.1生成數據的設置。定性示例顯示強化學習使SE更詳細，性能更佳。

研究者也承認SEAL存在侷限性，包括災難性遺忘、計算開銷和上下文依賴評估等問題。論文、項目頁面及代碼均已公開。