AI News HubLIVE
站内改写2 分钟阅读

麻省理工学院推出SEAL:迈向自我改进AI的新一步

MIT发布了SEAL框架,使大语言模型能通过强化学习自我编辑和更新权重,加速了AI自我进化的进程。

来源Synced Review作者: Synced

近年来,AI自我进化一直是研究热点,大量论文涌现,OpenAI CEO Sam Altman等知名人物也对自我进化智能系统的未来发表了看法。现在,麻省理工学院(MIT)一篇题为“自我适应语言模型”的论文提出了SEAL(Self-Adapting LLMs)框架,使大语言模型(LLM)能够更新自身权重。这被视为向真正自我进化AI迈出的又一重要一步。

该论文于近日发布,已在Hacker News等平台引发热议。SEAL的核心是让LLM通过“自我编辑”生成训练数据,并基于新输入更新权重。关键在于,自我编辑过程通过强化学习习得,奖励机制与更新模型在下游任务上的表现挂钩。

论文发布时机引人注目。此前,Sakana AI与不列颠哥伦比亚大学的“达尔文-哥德尔机”、卡内基梅隆大学的“自我奖励训练”、上海交通大学的“MM-UPT”多模态模型持续自我改进框架,以及香港中文大学与vivo合作的“UI-Genie”自我改进框架等研究已备受关注。此外,Altman在博文“温和奇点”中描绘了自我改进AI与机器人的未来,称初始数百万台人形机器人需传统制造,随后它们能“运营整个供应链以制造更多机器人,进而建造更多芯片厂、数据中心等”。随后,推特用户@VraserX声称OpenAI内部已在运行递归自我改进AI,引发真假争论。

技术层面,SEAL旨在使模型遇到新数据时,通过生成合成数据并自我编辑来优化参数。模型训练目标是直接生成自我编辑(SE),其生成通过强化学习习得:模型获得奖励的条件是生成的SE应用后提升目标任务性能。因此,SEAL可视为一个双层循环算法:外层强化学习循环优化SE生成,内层更新循环通过梯度下降应用SE更新模型。这本质上是元学习,重点关注如何以元学习方式生成有效SE。

SEAL运行于单一任务实例(C,τ),C为任务相关内容,τ为下游评估。模型基于C生成SE,然后通过监督微调更新参数:θ′←SFT(θ,SE)。研究者发现GRPO、PPO等传统在线策略方法导致训练不稳定,最终采用DeepMind论文中更简单的基于过滤的行为克隆方法ReST^EM。该方法可视为期望最大化过程:E步从当前模型策略采样候选输出,M步仅强化带来正奖励的样本。当前实现使用单一模型生成和学习SE,但角色可分离为“教师-学生”设置。

MIT团队在知识整合与少样本学习两个领域实现SEAL。少样本学习中,使用Llama-3.2-1B-Instruct模型,SEAL将适应成功率从20%提升至72.5%(无适应时为0%),虽仍低于理想基线“Oracle TTT”,但进步显著。知识整合任务中,基于Qwen2.5-7B模型整合SQuAD文章新事实,SEAL持续优于基线方法,仅用两轮迭代即可超越使用GPT-4.1生成数据的设置。定性示例显示强化学习使SE更详细,性能更佳。

研究者也承认SEAL存在局限性,包括灾难性遗忘、计算开销和上下文依赖评估等问题。论文、项目页面及代码均已公开。