Agent Arena:真實世界中智能體的因果評估
Agent Arena 是一個基於真實世界用户交互數據的新智能體評估框架,採用因果追蹤方法對智能體組件進行隨機對照試驗,從而生成可解釋的排行榜。本文詳細介紹了其方法論、五個關鍵信號(確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺)以及大量真實使用數據(任務分佈、工具調用、代碼行數等),並展示了幾個高複雜度任務案例。
AI 智能體正越來越多地承擔實際工作。從聊天到終端再到 OpenClaw,用户們正在與由模型和包含眾多子組件及工具的 harness 組成的複雜智能體進行交互。隨之而來的是任務分佈的極大擴展。這使得智能體評估變得越來越困難,因為任務覆蓋範圍和任務複雜性都在同步增長。我們需要一種能夠隨着使用情況和能力而擴展的智能體評估方法。
今天,我們發佈了 Agent Arena 排行榜。Arena 始終專注於現實世界中的評估。為此,Agent Arena 收集並分析了數百萬次來自人們在 arena.ai/agent 上使用 Agent Mode 進行實際工作的野外交互——包括軟件工程、金融分析等。基於這些在我們平台上運行的智能體的觀察,我們得出了第一個 Agent Arena 排行榜。
Agent Arena 排行榜使用的評估方法不同於我們之前的 Arena。它不是依賴於成對投票,而是使用一種我們稱之為因果追蹤的方法來計算排名。因果追蹤將智能體視為一個多組件系統,每個組件選擇代表一種可能的處理。我們觀察單個點狀軌跡並測量各種信號,例如任務成功率、口頭反饋、工具錯誤恢復、工具幻覺等。然後,通過隨機化組件選擇,我們創建了一個多幹預的隨機對照試驗,在該試驗中我們可以聚合測量結果以估計因果處理效果。我們在上圖中將這些效果稱為“淨改進”。因果框架產生了一個可解釋的排名,該排名代表了由於組件選擇而帶來的智能體性能提升。這分解了主編排模型、任何子智能體、圖像生成模型以及 harness 中不同元素的貢獻,使我們能夠將多個信號合併為一個連貫的排行榜。
這個首期排行榜是我們對編排模型(即選擇調用哪些工具的主要大語言模型)進行因果評估的結果。智能體 harness 其他方面的排名即將推出。下文統計方法部分包含了更多方法細節。
每個 Agent Arena 會話都包含豐富的反饋流。用户用自然語言與智能體進行迭代,逐輪表達贊同、不滿或澄清。他們決定是否下載智能體產生的產物。他們點擊明確的“贊同/反對”按鈕。當智能體偏離軌道時,他們會發出內聯修正。而智能體方面,則與一個不斷反饋的環境進行交互:shell 退出碼、工具錯誤、它試圖調用的工具不存在等。Agent Mode 使我們能夠提取所有這些信號——明確的用户反饋、隱含的用户反饋以及來自智能體環境的反饋。在計算出每個會話中每個信號的結果後,我們使用因果方法將其轉化為排行榜,然後彙總成主排行榜。今天,我們首先展示 5 個信號,並計劃在不久的將來測量更多信號。
主排行榜彙總了以下信號:
確認成功——用户使用 Arena UI 將任務標記為成功或失敗。Arena 在每一步都提供“贊同”和“反對”按鈕;我們使用給定任務軌跡的最終贊同或反對來確定結果。(一個會話中可以有多個任務。)
表揚與投訴——用户對智能體的輸出表示表揚或投訴。對於每個任務,我們會識別出明確的口頭表揚(“看起來很棒”、“這正是我需要的”)或明確的口頭投訴(“這壞了”、“你完全誤解了”)的消息。如果表揚數量超過投訴,則該任務標記為成功。
可操控性——智能體執行用户修正。當用户發出內聯修正(“不,改為做 X”、“你讀錯了文件”)時,智能體應嘗試修復。如果用户接受修復,我們標記修正成功;如果用户拒絕或放棄,則標記為不成功。在實際工作中,錯誤不可避免——這個信號捕捉了這些錯誤是否得到快速解決。
Bash 恢復——從 Bash 錯誤中恢復所需的輪數。當智能體發出因模型故障(而非環境問題)而出現錯誤的 Bash 命令時,恢復計時開始;我們計算後續的 Bash 調用,直到下一個無錯誤命令。如果智能體放棄,我們會施加額外的懲罰。
工具幻覺——智能體引用了不存在的工具。這懲罰了編造的工具名稱、產生垃圾名稱的語法錯誤以及思維鏈令牌泄漏到工具字段的情況。如果智能體調用不存在的工具,我們將任務標記為失敗。
這五個信號只是起點。我們計劃增加更多信號以進一步豐富這些評估,淘汰已過時的信號,並在改進追蹤挖掘時對其進行修改。
最後,儘管不是排行榜信號,我們還可以計算智能體部署後的實際成本,以評估帕累托最優性。我們直接計算會話的確切成本。我們發現有些模型在實踐中更昂貴,儘管按標價更便宜。這是由於模型行為(例如每步更多步驟)或誘導的用户行為(例如需要更多輪才能達到滿意)所致。
現在,我們深入探討排行榜背後的數據。Agent Arena 是一個實時的真實用户流,請求模型完成工作:編寫代碼、調試損壞的項目、通過網絡進行研究、創建文檔、構建前端、分析文件以及迭代多步驟任務。
在最近的 7 天切片中,Arena 看到了 160,480 個 Agent Mode 任務(注意一個會話中可能有多個任務)。最大的類別是代碼編寫(17.5%)、研究與查找(10.8%)、規劃和頭腦風暴(10.6%)以及多模態圖像/視頻工作(10.2%),其次是文檔創建(9.1%)和代碼調試(8.9%)。僅代碼編寫就約佔 28,000 個任務,還有約 14,000 個代碼調試任務和約 17,000 個研究與查找任務。
在 128,244 個會話中,75.6% 使用了至少一個工具——41.1% 運行了 Bash,27.1% 運行了網絡搜索。在這一週內,Agent Mode 發出了 200 萬個結構化工具調用,包括約 93.6 萬次 Bash 調用、約 55 萬次文件寫入和約 27.5 萬次網絡搜索。
通過成功的 write_file 調用跟蹤,Agent Mode 在過去一週內編寫了 4030 萬行代碼——大約每個編碼會話 1000 行。
在過去的 7 天裏,會話平均執行約 16.5 次結構化工具調用,而高工具調用會話足夠常見,形成了自己的隊列:超過 3400 個循環過濾會話在一週內運行了非常長的工具鏈。這些會話主要是實際工作——53.2% 是編碼或倉庫調試,39.0% 是產物/文件創建,其餘涉及網絡合成、終端工作流和數據分析。
最後,約 32% 的近期會話在最終輪結束時至少包含 128k 個輸入令牌,22% 至少包含 256k,8% 至少包含 1M。
在一批最重的實際會話樣本中,我們看到了:一個實時體育電視節目表網站、一個自主水下航行器自動駕駛儀、一個自託管電影觀看列表應用、一個金融研究 RAG 流水線、一個實時學習追蹤平台等等。許多會話以用户下載完成的工作空間結束。