AI News HubLIVE
站內改寫2 分鐘閱讀

自動研究:自我改進代理背後的反饋循環

Introspection公司聯合創始人Roland Gavrilescu在AI Engineer World's Fair上闡述了自動研究的概念,即構建“外循環”讓代理通過反饋信號、評估和人類輸入來維護和改進主系統。他介紹了代理“配方”、內外循環分工,以及人類在軟件工廠中的核心地位。

來源Latent Space作者: Richard MacManus

在最近的AI Engineer World's Fair上,Introspection公司的聯合創始人兼CEO Roland Gavrilescu詳細介紹了自動研究(autoresearch)這一概念。自動研究指的是構建一個“外循環”,使代理能夠通過反饋信號、評估和人類輸入來維護和改進主系統。Gavrilescu此前在xAI從事代理基礎設施和雲代理工作,並與聯合創始人Julian Bright共同創立了Introspection,旨在為部署這些自我改進系統提供基礎設施。

Gavrilescu在演講中提出了三個關鍵模式。首先,“循環即產品”——從模型到工具再到循環的轉變,關鍵在於定義正確的反饋機制,使代理能夠承擔更多工作而不產生劣質輸出。其次,循環生成的內容需要被跟蹤,他引入了“代理配方”的概念。配方類似於數據配方,它描述了代理如何與不同模型協作、使用的評估方法、創建的人類判斷標準以及失敗後新評估的引入。配方捕捉了整個決策過程,包括失敗和錯誤,使得系統可以在不依賴單一供應商的情況下迭代。第三,系統應同時追求更好和更便宜,逐步將前沿模型的能力蒸餾到定製化的自有系統中。

Gavrilescu將系統分為內循環和外循環。內循環是主系統與用户交互並執行工作,而自動研究更關注外循環,即研究和維護主系統的另一個系統。外循環的設計需要確保在合理的token消耗下解決正確的問題。他將開源框架Pi比作代理工具中的Linux,而Introspection則類似Red Hat,提供企業級的管理和擴展能力。

在生產環境中,可靠性和成本控制是關鍵。Introspection專注於提供管理基礎設施,幫助企業在保持安全和控制成本的同時運行代理循環。人類在循環中扮演重要角色,尤其是在初期。代理可以通過“詢問人類”工具學習人類偏好,隨着時間推移積累知識,逐漸變得更加自主。Gavrilescu類比新員工入職:初期需要大量詢問,隨後獨立決策。

當前,Introspection主要面向垂直SaaS公司的軟件工程師。代理的工作環境基於Git,Git作為審計日誌記錄所有變更。未來計劃支持產品經理等角色。他認為,設計循環本質上是設計軟件工廠,但其自主程度需逐步提升。初期應將人類作為核心組件,從人類身上提取隱性知識和流程,而不是一開始就追求完全自動化。

對於希望嘗試自動研究的工程師,Gavrilescu建議首先投資於信號——明確想讓代理響應的內容,並過濾掉低價值反饋。其次要控制成本,避免意外的token消耗。最後,跟蹤前沿研究,理解研究實驗室如何使用數據配方,並將其應用到自己的產品中。最終目標是讓產品組織變成微型研究實驗室,代理則充當微型研究員。