AI News HubLIVE
站内改写

Hexo Labs 開源 SIA:同時更新框架和模型權重的自我改進代理

Hexo Labs 釋出了 SIA(Self-Improving AI),這是一個基於 MIT 許可證的開源框架,能夠在一個自我改進迴圈中同時更新代理的框架(scaffold)和模型權重。SIA 由三個 LLM 元件驅動,並在三個不同領域(法律分類、CUDA 核心最佳化、單細胞 RNA 去噪)的測試中表現出色,結合框架和權重更新優於僅框架更新。論文稱 SIA 是首個同時編輯框架和權重的系統,並已開原始碼。

文章情報

工程師進階

要點

  • SIA 是一個自我改進迴圈,可同時更新代理的框架和模型權重,無需人工調整。
  • 在 LawBench 任務中,結合權重更新將準確率從僅框架的 50.0% 提升至 70.1%。
  • 反饋代理根據獎勵訊號選擇訓練演算法,包括 PPO、熵優勢加權和 GRPO。
  • SIA 以 MIT 許可證開源,基於 gpt-oss-120b 和 LoRA 秩 32。

為什麼重要

這條新聞值得關注,因為SIA 是一個自我改進迴圈,可同時更新代理的框架和模型權重,無需人工調整。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數 AI 代理在人類停止調整後會停止改進。模型是固定的,其周圍的框架也是固定的。Hexo Labs 希望同時改變這兩者。本週,它釋出了 SIA(Self-Improving AI),這是一個基於 MIT 許可證的開源框架,核心主張明確而具體:SIA 在一個自我改進迴圈內同時編輯代理的框架和模型權重。

SIA 將特定任務的代理分為兩部分:第一部分是框架,也稱為 scaffold,包括系統提示、工具排程邏輯、重試策略和答案提取程式碼;第二部分是模型權重本身。三個 LLM 元件驅動迴圈:元代理根據任務規範和參考程式碼編寫初始框架;任務特定代理執行任務並記錄每一步;反饋代理讀取完整軌跡並決定更改什麼。

反饋代理是關鍵。每次執行後,它選擇兩種操作之一:在權重不變的情況下重寫框架,或在框架不變的情況下觸發權重更新。基礎模型是 openai/gpt-oss-120b,權重更新使用秩為 32 的 LoRA 低秩介面卡。元代理和反饋代理均執行於 Claude Sonnet 4.6,訓練在 H100 GPU 上透過 Modal 平臺進行。研究團隊標稱兩個工作點:SIA-H(僅框架更新)和 SIA-W+H(框架加權重更新)。

測試在三個截然不同的領域進行:LawBench(191 類中國刑事罪名分類)、AlphaEvolve TriMul(用於 AlphaFold2 的自定義 CUDA 核心)和 scRNA-seq 去噪(單細胞 RNA 插補方法 MAGIC 的調優)。結果一致顯示,權重更新帶來了超越框架編輯的收益。在 LawBench 上,框架迭代構建了 TF-IDF 加 LinearSVC 流水線,達到 50.0% 準確率;透過 PPO 進行權重更新後,準確率躍升至 70.1%,提升 20.1 個百分點。在 TriMul 上,框架編輯帶來 1.14 倍加速,權重更新則將執行時間從 12,483 微秒降至 1,017 微秒,相比僅框架峰值減少了 91.9%。需要注意的是,未經輔助的編碼代理 Claude Code 在 TriMul 上達到了 1.50 倍,超越 SIA-H 的 1.14 倍,但 SIA-W+H 整體以 14.02 倍領先。在去噪任務中,框架超引數搜尋達到 0.241 mse_norm,而權重更新引入了一個框架從未產生的兩步步驟(將插補計數四捨五入為非負整數),將分數提升至 0.289。

反饋代理根據觀察到的獎勵訊號選擇訓練演算法。在 LawBench 上,獎勵是清晰的結果標量,所以使用帶 GAE 的 PPO。在 TriMul 上,大多數核心編譯失敗,因此使用熵優勢加權,該方法對罕見高獎勵 rollout 賦予更高權重。在去噪上,使用 GRPO,完全消除了價值網路。還可用的演算法包括 REINFORCE with KL-to-base、DPO 和 best-of-N 行為克隆,每種演算法對映到不同的獎勵形狀和失敗風險。

SIA 的優勢在於:它是第一個在單迴圈中同時編輯框架和權重的系統;在三個不相關領域上持續超越先前最優;開源且易於安裝;演算法選擇基於獎勵條件而非固定計劃。但需要注意:報告僅涉及三個任務,更廣泛的演算法選擇結果尚未公佈;兩個槓桿最佳化同一個固定驗證器,存在耦合的 Goodhart 效應風險;聯合不動點可能在擾動下脆弱。此外,釋出報道中提及的 350 倍超級智慧聲稱未出現在論文中。

SIA 的程式碼已開源(hexo-ai/sia),可透過 pip 安裝,並附帶了四個捆綁任務:gpqa、lawbench、longcot-chess 和 spaceship-titanic。