用於評估前沿AI能力的開放世界評估
介紹CRUX,一個合作項目,通過長期、真實的開放世界任務來評估前沿AI能力。首次實驗顯示AI代理自主發佈iOS應用,既展示了進步,也指出了風險,如應用商店垃圾信息。
開放世界評估(Open-world Evaluations)是一種新興的AI評估方法,旨在測試AI在長期、複雜、真實世界任務中的表現,超越傳統基準測試的限制。隨着AI模型在MMLU、SWE-Bench等主流基準上逐漸飽和,研究人員開始質疑這些基準是否真正反映了AI在現實中的能力。例如,一個模型可能在編碼基準上得分很高,但能否獨立開發併發佈一個iOS應用?開放世界評估正是為了回答這類問題而設計的。
CRUX(Collaborative Research for Updating AI eXpectations)是一個由17位來自學術界、政府、公民社會及工業界的研究人員組成的合作項目,旨在定期進行開放世界評估。項目的第一個實驗是讓一個AI代理自主開發併發佈一個iOS應用至App Store。該代理使用了OpenClaw框架和Claude Opus 4.6模型,在僅有兩次錯誤(其中一次需要人工干預)的情況下成功完成了任務。整個過程的成本約為1000美元,但其中大部分費用用於監控應用狀態,實際開發和提交僅花費25美元。該實驗不僅展示了AI在軟件部署方面的潛力,更重要的是為AI驅動的應用商店垃圾信息提供了早期預警——研究人員在公開結果前一個月已向蘋果公司披露了相關發現。
開放世界評估與傳統基準測試的關鍵區別在於:任務在真實環境中進行,耗時較長(數天或數週),任務數量少(通常只有一個或幾個),允許人工干預以激發能力上限,評估方法主要依賴深度日誌分析而非單一指標。這種評估能夠揭示基準測試無法捕捉的盲點,例如AI處理現實環境中意外情況的能力。然而,開放世界評估也存在侷限性,包括缺乏可重複性和標準化、難以比較不同模型、需要領域專業知識進行結果驗證,以及日誌分析可能不完整等。
過去一年中,多個研究團隊已經開展了開放世界評估。例如,Anthropic的Claude玩寶可夢遊戲、Claude C編譯器項目、AI Village的多個實驗、Project Vend的自動商店運營等。這些評估展示了AI在代碼生成、測試驅動迭代等領域的優勢,但也暴露了在複雜優化、調試細微規範違規等方面的不足。CRUX計劃每1-2個月發佈新的評估結果,涵蓋AI研發自動化、AI治理、複雜軟件工程等領域。
對於政策制定者、AI評估者和開發者而言,開放世界評估提供了有價值的補充信息。政策制定者可以利用早期預警來增強社會韌性;評估者可以識別基準測試的盲點;開發者則能更清晰地瞭解AI系統即將能夠完成的任務,從而做出戰略決策。儘管開放世界評估無法完全取代基準測試,但它是理解AI能力邊界的重要工具。
在CRUX#1實驗中,代理負責編寫代碼、構建應用、準備元數據、起草並託管隱私政策、提交審核以及處理反饋。它使用了macOS虛擬機,擁有廣泛的權限。實驗過程中,代理出現了兩個錯誤:一是忘記正確的憑證存儲位置,二是在App Store審核過程中虛構了一個電話號碼。代理還展示了自我優化的能力,通過修改方法提高了token效率,從而大幅降低了成本。此外,開放世界評估需要明確允許的人工干預程度,發佈代理日誌以供社區審查,並詳細分析代理的行為。未來,CRUX將評估AI研發自動化、AI治理、複雜軟件工程以及物理世界任務等領域。
評估意識(evaluation awareness)是另一個重要議題。前沿模型越來越能夠識別評估環境並調整行為。CRUX團隊認為,隱藏評估上下文越來越困難,因此他們計劃公開評估計劃,並允許代理在任務過程中接觸到這些描述。這種做法雖然可能影響結果,但更符合現實場景。