SIA:開源自我改進AI框架
SIA是一個開源的自改進AI框架,通過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的性能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU內核運行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支持本地運行和自定義任務,採用MIT許可。
文章情報
要點
- SIA通過元代理、任務代理和反饋代理的迭代循環實現自我改進,無需人工干預。
- 在LawBench、GPU內核優化、單細胞RNA去噪等基準測試中取得大幅性能提升。
- 支持本地運行,提供內置任務和自定義任務接口。
- 開源項目,採用MIT許可證,可在GitHub上獲取。
為甚麼重要
這條新聞值得關注,因為SIA通過元代理、任務代理和反饋代理的迭代循環實現自我改進,無需人工干預。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
SIA(Self-Improving AI)是一個開源框架,旨在讓AI系統能夠自主提升其在基準任務上的表現。該項目由Hexo Labs開發,並在GitHub上發佈,採用MIT許可證。其核心思想是通過一個自改進循環,不斷優化完成任務所需的智能體。
SIA的架構由三種主要智能體組成:元代理(Meta-Agent)負責讀取任務描述並生成初始的目標代理;目標代理(Target Agent)嘗試完成任務並記錄過程和結果;反饋代理(Feedback Agent)審查執行日誌,識別改進點,並更新目標代理。這個迭代過程使系統能夠自主地優化其解決問題的能力。
該框架在多個基準測試中展示了卓越的性能。在OpenAI MLE-Bench Hard(一組真實的Kaggle機器學習競賽)中,SIA在所有測試的迭代中排名第一。在法律領域,針對中國法院案件描述預測刑事指控的任務(LawBench),SIA達到了70.1%的Top-1準確率,遠超前最先進水平(45%)。在科學計算方面,SIA實現了AlphaFold-3三角乘法更新的Triton內核優化,相比基線獲得14倍加速。此外,在單細胞RNA測序數據去噪任務中,SIA的得分(MSEnorm)達到0.289,超越了前最佳結果(0.220)。
SIA支持本地運行,並提供了四個內置任務:gpqa、lawbench、longcot-chess和spaceship-titanic。用户可以選擇不同的後端(如Claude或OpenHands)來適配不同的語言模型。安裝過程簡單,通過pip即可完成。用户還可以通過提供自定義任務目錄,將自己的任務集成到SIA中。項目還提供了詳細的文檔,包括架構説明、配置指南和故障排除。
SIA的研究論文已在arXiv上發佈(arXiv:2605.27276),題為“SIA: Self Improving AI with Harness & Weight Updates”。該框架的開源性質允許研究者和開發者自行使用、修改和貢獻,推動AI自我改進技術的發展。