Hexo Labs 开源 SIA:同时更新框架和模型权重的自我改进代理
Hexo Labs 发布了 SIA(Self-Improving AI),这是一个基于 MIT 许可证的开源框架,能够在一个自我改进循环中同时更新代理的框架(scaffold)和模型权重。SIA 由三个 LLM 组件驱动,并在三个不同领域(法律分类、CUDA 内核优化、单细胞 RNA 去噪)的测试中表现出色,结合框架和权重更新优于仅框架更新。论文称 SIA 是首个同时编辑框架和权重的系统,并已开源代码。
文章情报
要点
- SIA 是一个自我改进循环,可同时更新代理的框架和模型权重,无需人工调整。
- 在 LawBench 任务中,结合权重更新将准确率从仅框架的 50.0% 提升至 70.1%。
- 反馈代理根据奖励信号选择训练算法,包括 PPO、熵优势加权和 GRPO。
- SIA 以 MIT 许可证开源,基于 gpt-oss-120b 和 LoRA 秩 32。
为什么重要
这条新闻值得关注,因为SIA 是一个自我改进循环,可同时更新代理的框架和模型权重,无需人工调整。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
大多数 AI 代理在人类停止调整后会停止改进。模型是固定的,其周围的框架也是固定的。Hexo Labs 希望同时改变这两者。本周,它发布了 SIA(Self-Improving AI),这是一个基于 MIT 许可证的开源框架,核心主张明确而具体:SIA 在一个自我改进循环内同时编辑代理的框架和模型权重。
SIA 将特定任务的代理分为两部分:第一部分是框架,也称为 scaffold,包括系统提示、工具调度逻辑、重试策略和答案提取代码;第二部分是模型权重本身。三个 LLM 组件驱动循环:元代理根据任务规范和参考代码编写初始框架;任务特定代理运行任务并记录每一步;反馈代理读取完整轨迹并决定更改什么。
反馈代理是关键。每次运行后,它选择两种操作之一:在权重不变的情况下重写框架,或在框架不变的情况下触发权重更新。基础模型是 openai/gpt-oss-120b,权重更新使用秩为 32 的 LoRA 低秩适配器。元代理和反馈代理均运行于 Claude Sonnet 4.6,训练在 H100 GPU 上通过 Modal 平台进行。研究团队标称两个工作点:SIA-H(仅框架更新)和 SIA-W+H(框架加权重更新)。
测试在三个截然不同的领域进行:LawBench(191 类中国刑事罪名分类)、AlphaEvolve TriMul(用于 AlphaFold2 的自定义 CUDA 内核)和 scRNA-seq 去噪(单细胞 RNA 插补方法 MAGIC 的调优)。结果一致显示,权重更新带来了超越框架编辑的收益。在 LawBench 上,框架迭代构建了 TF-IDF 加 LinearSVC 流水线,达到 50.0% 准确率;通过 PPO 进行权重更新后,准确率跃升至 70.1%,提升 20.1 个百分点。在 TriMul 上,框架编辑带来 1.14 倍加速,权重更新则将运行时间从 12,483 微秒降至 1,017 微秒,相比仅框架峰值减少了 91.9%。需要注意的是,未经辅助的编码代理 Claude Code 在 TriMul 上达到了 1.50 倍,超越 SIA-H 的 1.14 倍,但 SIA-W+H 整体以 14.02 倍领先。在去噪任务中,框架超参数搜索达到 0.241 mse_norm,而权重更新引入了一个框架从未产生的两步步骤(将插补计数四舍五入为非负整数),将分数提升至 0.289。
反馈代理根据观察到的奖励信号选择训练算法。在 LawBench 上,奖励是清晰的结果标量,所以使用带 GAE 的 PPO。在 TriMul 上,大多数内核编译失败,因此使用熵优势加权,该方法对罕见高奖励 rollout 赋予更高权重。在去噪上,使用 GRPO,完全消除了价值网络。还可用的算法包括 REINFORCE with KL-to-base、DPO 和 best-of-N 行为克隆,每种算法映射到不同的奖励形状和失败风险。
SIA 的优势在于:它是第一个在单循环中同时编辑框架和权重的系统;在三个不相关领域上持续超越先前最优;开源且易于安装;算法选择基于奖励条件而非固定计划。但需要注意:报告仅涉及三个任务,更广泛的算法选择结果尚未公布;两个杠杆优化同一个固定验证器,存在耦合的 Goodhart 效应风险;联合不动点可能在扰动下脆弱。此外,发布报道中提及的 350 倍超级智能声称未出现在论文中。
SIA 的代码已开源(hexo-ai/sia),可通过 pip 安装,并附带了四个捆绑任务:gpqa、lawbench、longcot-chess 和 spaceship-titanic。