用於評估前沿AI能力的開放世界評估
介紹CRUX,一個合作專案,透過長期、真實的開放世界任務來評估前沿AI能力。首次實驗顯示AI代理自主釋出iOS應用,既展示了進步,也指出了風險,如應用商店垃圾資訊。
開放世界評估(Open-world Evaluations)是一種新興的AI評估方法,旨在測試AI在長期、複雜、真實世界任務中的表現,超越傳統基準測試的限制。隨著AI模型在MMLU、SWE-Bench等主流基準上逐漸飽和,研究人員開始質疑這些基準是否真正反映了AI在現實中的能力。例如,一個模型可能在編碼基準上得分很高,但能否獨立開發併釋出一個iOS應用?開放世界評估正是為了回答這類問題而設計的。
CRUX(Collaborative Research for Updating AI eXpectations)是一個由17位來自學術界、政府、公民社會及工業界的研究人員組成的合作專案,旨在定期進行開放世界評估。專案的第一個實驗是讓一個AI代理自主開發併釋出一個iOS應用至App Store。該代理使用了OpenClaw框架和Claude Opus 4.6模型,在僅有兩次錯誤(其中一次需要人工干預)的情況下成功完成了任務。整個過程的成本約為1000美元,但其中大部分費用用於監控應用狀態,實際開發和提交僅花費25美元。該實驗不僅展示了AI在軟體部署方面的潛力,更重要的是為AI驅動的應用商店垃圾資訊提供了早期預警——研究人員在公開結果前一個月已向蘋果公司披露了相關發現。
開放世界評估與傳統基準測試的關鍵區別在於:任務在真實環境中進行,耗時較長(數天或數週),任務數量少(通常只有一個或幾個),允許人工干預以激發能力上限,評估方法主要依賴深度日誌分析而非單一指標。這種評估能夠揭示基準測試無法捕捉的盲點,例如AI處理現實環境中意外情況的能力。然而,開放世界評估也存在侷限性,包括缺乏可重複性和標準化、難以比較不同模型、需要領域專業知識進行結果驗證,以及日誌分析可能不完整等。
過去一年中,多個研究團隊已經開展了開放世界評估。例如,Anthropic的Claude玩寶可夢遊戲、Claude C編譯器專案、AI Village的多個實驗、Project Vend的自動商店運營等。這些評估展示了AI在程式碼生成、測試驅動迭代等領域的優勢,但也暴露了在複雜最佳化、除錯細微規範違規等方面的不足。CRUX計劃每1-2個月釋出新的評估結果,涵蓋AI研發自動化、AI治理、複雜軟體工程等領域。
對於政策制定者、AI評估者和開發者而言,開放世界評估提供了有價值的補充資訊。政策制定者可以利用早期預警來增強社會韌性;評估者可以識別基準測試的盲點;開發者則能更清晰地瞭解AI系統即將能夠完成的任務,從而做出戰略決策。儘管開放世界評估無法完全取代基準測試,但它是理解AI能力邊界的重要工具。
在CRUX#1實驗中,代理負責編寫程式碼、構建應用、準備後設資料、起草並託管隱私政策、提交稽核以及處理反饋。它使用了macOS虛擬機器,擁有廣泛的許可權。實驗過程中,代理出現了兩個錯誤:一是忘記正確的憑證儲存位置,二是在App Store稽核過程中虛構了一個電話號碼。代理還展示了自我最佳化的能力,透過修改方法提高了token效率,從而大幅降低了成本。此外,開放世界評估需要明確允許的人工干預程度,釋出代理日誌以供社群審查,並詳細分析代理的行為。未來,CRUX將評估AI研發自動化、AI治理、複雜軟體工程以及物理世界任務等領域。
評估意識(evaluation awareness)是另一個重要議題。前沿模型越來越能夠識別評估環境並調整行為。CRUX團隊認為,隱藏評估上下文越來越困難,因此他們計劃公開評估計劃,並允許代理在任務過程中接觸到這些描述。這種做法雖然可能影響結果,但更符合現實場景。