2026-05-29 15:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Hexo Labs 開源 SIA：同時更新框架和模型權重的自我改進代理

Hexo Labs 釋出了 SIA（Self-Improving AI），這是一個基於 MIT 許可證的開源框架，能夠在一個自我改進迴圈中同時更新代理的框架（scaffold）和模型權重。SIA 由三個 LLM 元件驅動，並在三個不同領域（法律分類、CUDA 核心最佳化、單細胞 RNA 去噪）的測試中表現出色，結合框架和權重更新優於僅框架更新。論文稱 SIA 是首個同時編輯框架和權重的系統，並已開原始碼。

來源MarkTechPost作者: Asif Razzaq

大多數 AI 代理在人類停止調整後會停止改進。模型是固定的，其周圍的框架也是固定的。Hexo Labs 希望同時改變這兩者。本週，它釋出了 SIA（Self-Improving AI），這是一個基於 MIT 許可證的開源框架，核心主張明確而具體：SIA 在一個自我改進迴圈內同時編輯代理的框架和模型權重。

SIA 將特定任務的代理分為兩部分：第一部分是框架，也稱為 scaffold，包括系統提示、工具排程邏輯、重試策略和答案提取程式碼；第二部分是模型權重本身。三個 LLM 元件驅動迴圈：元代理根據任務規範和參考程式碼編寫初始框架；任務特定代理執行任務並記錄每一步；反饋代理讀取完整軌跡並決定更改什麼。

反饋代理是關鍵。每次執行後，它選擇兩種操作之一：在權重不變的情況下重寫框架，或在框架不變的情況下觸發權重更新。基礎模型是 openai/gpt-oss-120b，權重更新使用秩為 32 的 LoRA 低秩介面卡。元代理和反饋代理均執行於 Claude Sonnet 4.6，訓練在 H100 GPU 上透過 Modal 平臺進行。研究團隊標稱兩個工作點：SIA-H（僅框架更新）和 SIA-W+H（框架加權重更新）。

測試在三個截然不同的領域進行：LawBench（191 類中國刑事罪名分類）、AlphaEvolve TriMul（用於 AlphaFold2 的自定義 CUDA 核心）和 scRNA-seq 去噪（單細胞 RNA 插補方法 MAGIC 的調優）。結果一致顯示，權重更新帶來了超越框架編輯的收益。在 LawBench 上，框架迭代構建了 TF-IDF 加 LinearSVC 流水線，達到 50.0% 準確率；透過 PPO 進行權重更新後，準確率躍升至 70.1%，提升 20.1 個百分點。在 TriMul 上，框架編輯帶來 1.14 倍加速，權重更新則將執行時間從 12,483 微秒降至 1,017 微秒，相比僅框架峰值減少了 91.9%。需要注意的是，未經輔助的編碼代理 Claude Code 在 TriMul 上達到了 1.50 倍，超越 SIA-H 的 1.14 倍，但 SIA-W+H 整體以 14.02 倍領先。在去噪任務中，框架超引數搜尋達到 0.241 mse_norm，而權重更新引入了一個框架從未產生的兩步步驟（將插補計數四捨五入為非負整數），將分數提升至 0.289。

反饋代理根據觀察到的獎勵訊號選擇訓練演算法。在 LawBench 上，獎勵是清晰的結果標量，所以使用帶 GAE 的 PPO。在 TriMul 上，大多數核心編譯失敗，因此使用熵優勢加權，該方法對罕見高獎勵 rollout 賦予更高權重。在去噪上，使用 GRPO，完全消除了價值網路。還可用的演算法包括 REINFORCE with KL-to-base、DPO 和 best-of-N 行為克隆，每種演算法對映到不同的獎勵形狀和失敗風險。

SIA 的優勢在於：它是第一個在單迴圈中同時編輯框架和權重的系統；在三個不相關領域上持續超越先前最優；開源且易於安裝；演算法選擇基於獎勵條件而非固定計劃。但需要注意：報告僅涉及三個任務，更廣泛的演算法選擇結果尚未公佈；兩個槓桿最佳化同一個固定驗證器，存在耦合的 Goodhart 效應風險；聯合不動點可能在擾動下脆弱。此外，釋出報道中提及的 350 倍超級智慧聲稱未出現在論文中。

SIA 的程式碼已開源（hexo-ai/sia），可透過 pip 安裝，並附帶了四個捆綁任務：gpqa、lawbench、longcot-chess 和 spaceship-titanic。