2026-05-29 15:28 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Hexo Labs 开源 SIA：同时更新框架和模型权重的自我改进代理

Hexo Labs 发布了 SIA（Self-Improving AI），这是一个基于 MIT 许可证的开源框架，能够在一个自我改进循环中同时更新代理的框架（scaffold）和模型权重。SIA 由三个 LLM 组件驱动，并在三个不同领域（法律分类、CUDA 内核优化、单细胞 RNA 去噪）的测试中表现出色，结合框架和权重更新优于仅框架更新。论文称 SIA 是首个同时编辑框架和权重的系统，并已开源代码。

来源MarkTechPost作者: Asif Razzaq

大多数 AI 代理在人类停止调整后会停止改进。模型是固定的，其周围的框架也是固定的。Hexo Labs 希望同时改变这两者。本周，它发布了 SIA（Self-Improving AI），这是一个基于 MIT 许可证的开源框架，核心主张明确而具体：SIA 在一个自我改进循环内同时编辑代理的框架和模型权重。

SIA 将特定任务的代理分为两部分：第一部分是框架，也称为 scaffold，包括系统提示、工具调度逻辑、重试策略和答案提取代码；第二部分是模型权重本身。三个 LLM 组件驱动循环：元代理根据任务规范和参考代码编写初始框架；任务特定代理运行任务并记录每一步；反馈代理读取完整轨迹并决定更改什么。

反馈代理是关键。每次运行后，它选择两种操作之一：在权重不变的情况下重写框架，或在框架不变的情况下触发权重更新。基础模型是 openai/gpt-oss-120b，权重更新使用秩为 32 的 LoRA 低秩适配器。元代理和反馈代理均运行于 Claude Sonnet 4.6，训练在 H100 GPU 上通过 Modal 平台进行。研究团队标称两个工作点：SIA-H（仅框架更新）和 SIA-W+H（框架加权重更新）。

测试在三个截然不同的领域进行：LawBench（191 类中国刑事罪名分类）、AlphaEvolve TriMul（用于 AlphaFold2 的自定义 CUDA 内核）和 scRNA-seq 去噪（单细胞 RNA 插补方法 MAGIC 的调优）。结果一致显示，权重更新带来了超越框架编辑的收益。在 LawBench 上，框架迭代构建了 TF-IDF 加 LinearSVC 流水线，达到 50.0% 准确率；通过 PPO 进行权重更新后，准确率跃升至 70.1%，提升 20.1 个百分点。在 TriMul 上，框架编辑带来 1.14 倍加速，权重更新则将运行时间从 12,483 微秒降至 1,017 微秒，相比仅框架峰值减少了 91.9%。需要注意的是，未经辅助的编码代理 Claude Code 在 TriMul 上达到了 1.50 倍，超越 SIA-H 的 1.14 倍，但 SIA-W+H 整体以 14.02 倍领先。在去噪任务中，框架超参数搜索达到 0.241 mse_norm，而权重更新引入了一个框架从未产生的两步步骤（将插补计数四舍五入为非负整数），将分数提升至 0.289。

反馈代理根据观察到的奖励信号选择训练算法。在 LawBench 上，奖励是清晰的结果标量，所以使用带 GAE 的 PPO。在 TriMul 上，大多数内核编译失败，因此使用熵优势加权，该方法对罕见高奖励 rollout 赋予更高权重。在去噪上，使用 GRPO，完全消除了价值网络。还可用的算法包括 REINFORCE with KL-to-base、DPO 和 best-of-N 行为克隆，每种算法映射到不同的奖励形状和失败风险。

SIA 的优势在于：它是第一个在单循环中同时编辑框架和权重的系统；在三个不相关领域上持续超越先前最优；开源且易于安装；算法选择基于奖励条件而非固定计划。但需要注意：报告仅涉及三个任务，更广泛的算法选择结果尚未公布；两个杠杆优化同一个固定验证器，存在耦合的 Goodhart 效应风险；联合不动点可能在扰动下脆弱。此外，发布报道中提及的 350 倍超级智能声称未出现在论文中。

SIA 的代码已开源（hexo-ai/sia），可通过 pip 安装，并附带了四个捆绑任务：gpqa、lawbench、longcot-chess 和 spaceship-titanic。