2025-06-16 20:58 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

麻省理工学院推出SEAL：迈向自我改进AI的新一步

MIT发布了SEAL框架，使大语言模型能通过强化学习自我编辑和更新权重，加速了AI自我进化的进程。

来源Synced Review作者: Synced

近年来，AI自我进化一直是研究热点，大量论文涌现，OpenAI CEO Sam Altman等知名人物也对自我进化智能系统的未来发表了看法。现在，麻省理工学院（MIT）一篇题为“自我适应语言模型”的论文提出了SEAL（Self-Adapting LLMs）框架，使大语言模型（LLM）能够更新自身权重。这被视为向真正自我进化AI迈出的又一重要一步。

该论文于近日发布，已在Hacker News等平台引发热议。SEAL的核心是让LLM通过“自我编辑”生成训练数据，并基于新输入更新权重。关键在于，自我编辑过程通过强化学习习得，奖励机制与更新模型在下游任务上的表现挂钩。

论文发布时机引人注目。此前，Sakana AI与不列颠哥伦比亚大学的“达尔文-哥德尔机”、卡内基梅隆大学的“自我奖励训练”、上海交通大学的“MM-UPT”多模态模型持续自我改进框架，以及香港中文大学与vivo合作的“UI-Genie”自我改进框架等研究已备受关注。此外，Altman在博文“温和奇点”中描绘了自我改进AI与机器人的未来，称初始数百万台人形机器人需传统制造，随后它们能“运营整个供应链以制造更多机器人，进而建造更多芯片厂、数据中心等”。随后，推特用户@VraserX声称OpenAI内部已在运行递归自我改进AI，引发真假争论。

技术层面，SEAL旨在使模型遇到新数据时，通过生成合成数据并自我编辑来优化参数。模型训练目标是直接生成自我编辑（SE），其生成通过强化学习习得：模型获得奖励的条件是生成的SE应用后提升目标任务性能。因此，SEAL可视为一个双层循环算法：外层强化学习循环优化SE生成，内层更新循环通过梯度下降应用SE更新模型。这本质上是元学习，重点关注如何以元学习方式生成有效SE。

SEAL运行于单一任务实例(C,τ)，C为任务相关内容，τ为下游评估。模型基于C生成SE，然后通过监督微调更新参数：θ′←SFT(θ,SE)。研究者发现GRPO、PPO等传统在线策略方法导致训练不稳定，最终采用DeepMind论文中更简单的基于过滤的行为克隆方法ReST^EM。该方法可视为期望最大化过程：E步从当前模型策略采样候选输出，M步仅强化带来正奖励的样本。当前实现使用单一模型生成和学习SE，但角色可分离为“教师-学生”设置。

MIT团队在知识整合与少样本学习两个领域实现SEAL。少样本学习中，使用Llama-3.2-1B-Instruct模型，SEAL将适应成功率从20%提升至72.5%（无适应时为0%），虽仍低于理想基线“Oracle TTT”，但进步显著。知识整合任务中，基于Qwen2.5-7B模型整合SQuAD文章新事实，SEAL持续优于基线方法，仅用两轮迭代即可超越使用GPT-4.1生成数据的设置。定性示例显示强化学习使SE更详细，性能更佳。

研究者也承认SEAL存在局限性，包括灾难性遗忘、计算开销和上下文依赖评估等问题。论文、项目页面及代码均已公开。