2026-04-17 01:47 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

用於評估前沿AI能力的開放世界評估

介紹CRUX，一個合作項目，通過長期、真實的開放世界任務來評估前沿AI能力。首次實驗顯示AI代理自主發佈iOS應用，既展示了進步，也指出了風險，如應用商店垃圾信息。

來源AI Snake Oil作者: Sayash Kapoor

開放世界評估（Open-world Evaluations）是一種新興的AI評估方法，旨在測試AI在長期、複雜、真實世界任務中的表現，超越傳統基準測試的限制。隨着AI模型在MMLU、SWE-Bench等主流基準上逐漸飽和，研究人員開始質疑這些基準是否真正反映了AI在現實中的能力。例如，一個模型可能在編碼基準上得分很高，但能否獨立開發併發佈一個iOS應用？開放世界評估正是為了回答這類問題而設計的。

CRUX（Collaborative Research for Updating AI eXpectations）是一個由17位來自學術界、政府、公民社會及工業界的研究人員組成的合作項目，旨在定期進行開放世界評估。項目的第一個實驗是讓一個AI代理自主開發併發佈一個iOS應用至App Store。該代理使用了OpenClaw框架和Claude Opus 4.6模型，在僅有兩次錯誤（其中一次需要人工干預）的情況下成功完成了任務。整個過程的成本約為1000美元，但其中大部分費用用於監控應用狀態，實際開發和提交僅花費25美元。該實驗不僅展示了AI在軟件部署方面的潛力，更重要的是為AI驅動的應用商店垃圾信息提供了早期預警——研究人員在公開結果前一個月已向蘋果公司披露了相關發現。

開放世界評估與傳統基準測試的關鍵區別在於：任務在真實環境中進行，耗時較長（數天或數週），任務數量少（通常只有一個或幾個），允許人工干預以激發能力上限，評估方法主要依賴深度日誌分析而非單一指標。這種評估能夠揭示基準測試無法捕捉的盲點，例如AI處理現實環境中意外情況的能力。然而，開放世界評估也存在侷限性，包括缺乏可重複性和標準化、難以比較不同模型、需要領域專業知識進行結果驗證，以及日誌分析可能不完整等。

過去一年中，多個研究團隊已經開展了開放世界評估。例如，Anthropic的Claude玩寶可夢遊戲、Claude C編譯器項目、AI Village的多個實驗、Project Vend的自動商店運營等。這些評估展示了AI在代碼生成、測試驅動迭代等領域的優勢，但也暴露了在複雜優化、調試細微規範違規等方面的不足。CRUX計劃每1-2個月發佈新的評估結果，涵蓋AI研發自動化、AI治理、複雜軟件工程等領域。

對於政策制定者、AI評估者和開發者而言，開放世界評估提供了有價值的補充信息。政策制定者可以利用早期預警來增強社會韌性；評估者可以識別基準測試的盲點；開發者則能更清晰地瞭解AI系統即將能夠完成的任務，從而做出戰略決策。儘管開放世界評估無法完全取代基準測試，但它是理解AI能力邊界的重要工具。

在CRUX#1實驗中，代理負責編寫代碼、構建應用、準備元數據、起草並託管隱私政策、提交審核以及處理反饋。它使用了macOS虛擬機，擁有廣泛的權限。實驗過程中，代理出現了兩個錯誤：一是忘記正確的憑證存儲位置，二是在App Store審核過程中虛構了一個電話號碼。代理還展示了自我優化的能力，通過修改方法提高了token效率，從而大幅降低了成本。此外，開放世界評估需要明確允許的人工干預程度，發佈代理日誌以供社區審查，並詳細分析代理的行為。未來，CRUX將評估AI研發自動化、AI治理、複雜軟件工程以及物理世界任務等領域。

評估意識（evaluation awareness）是另一個重要議題。前沿模型越來越能夠識別評估環境並調整行為。CRUX團隊認為，隱藏評估上下文越來越困難，因此他們計劃公開評估計劃，並允許代理在任務過程中接觸到這些描述。這種做法雖然可能影響結果，但更符合現實場景。