Agent Arena:真實世界中智慧體的因果評估
Agent Arena 是一個基於真實世界使用者互動資料的新智慧體評估框架,採用因果追蹤方法對智慧體元件進行隨機對照試驗,從而生成可解釋的排行榜。本文詳細介紹了其方法論、五個關鍵訊號(確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺)以及大量真實使用資料(任務分佈、工具呼叫、程式碼行數等),並展示了幾個高複雜度任務案例。
AI 智慧體正越來越多地承擔實際工作。從聊天到終端再到 OpenClaw,使用者們正在與由模型和包含眾多子元件及工具的 harness 組成的複雜智慧體進行互動。隨之而來的是任務分佈的極大擴充套件。這使得智慧體評估變得越來越困難,因為任務覆蓋範圍和任務複雜性都在同步增長。我們需要一種能夠隨著使用情況和能力而擴充套件的智慧體評估方法。
今天,我們釋出了 Agent Arena 排行榜。Arena 始終專注於現實世界中的評估。為此,Agent Arena 收集並分析了數百萬次來自人們在 arena.ai/agent 上使用 Agent Mode 進行實際工作的野外互動——包括軟體工程、金融分析等。基於這些在我們平臺上執行的智慧體的觀察,我們得出了第一個 Agent Arena 排行榜。
Agent Arena 排行榜使用的評估方法不同於我們之前的 Arena。它不是依賴於成對投票,而是使用一種我們稱之為因果追蹤的方法來計算排名。因果追蹤將智慧體視為一個多元件系統,每個元件選擇代表一種可能的處理。我們觀察單個點狀軌跡並測量各種訊號,例如任務成功率、口頭反饋、工具錯誤恢復、工具幻覺等。然後,透過隨機化元件選擇,我們建立了一個多幹預的隨機對照試驗,在該試驗中我們可以聚合測量結果以估計因果處理效果。我們在上圖中將這些效果稱為“淨改進”。因果框架產生了一個可解釋的排名,該排名代表了由於元件選擇而帶來的智慧體效能提升。這分解了主編排模型、任何子智慧體、影像生成模型以及 harness 中不同元素的貢獻,使我們能夠將多個訊號合併為一個連貫的排行榜。
這個首期排行榜是我們對編排模型(即選擇呼叫哪些工具的主要大語言模型)進行因果評估的結果。智慧體 harness 其他方面的排名即將推出。下文統計方法部分包含了更多方法細節。
每個 Agent Arena 會話都包含豐富的反饋流。使用者用自然語言與智慧體進行迭代,逐輪表達贊同、不滿或澄清。他們決定是否下載智慧體產生的產物。他們點選明確的“贊同/反對”按鈕。當智慧體偏離軌道時,他們會發出內聯修正。而智慧體方面,則與一個不斷反饋的環境進行互動:shell 退出碼、工具錯誤、它試圖呼叫的工具不存在等。Agent Mode 使我們能夠提取所有這些訊號——明確的使用者反饋、隱含的使用者反饋以及來自智慧體環境的反饋。在計算出每個會話中每個訊號的結果後,我們使用因果方法將其轉化為排行榜,然後彙總成主排行榜。今天,我們首先展示 5 個訊號,並計劃在不久的將來測量更多訊號。
主排行榜彙總了以下訊號:
確認成功——使用者使用 Arena UI 將任務標記為成功或失敗。Arena 在每一步都提供“贊同”和“反對”按鈕;我們使用給定任務軌跡的最終贊同或反對來確定結果。(一個會話中可以有多個任務。)
表揚與投訴——使用者對智慧體的輸出表示表揚或投訴。對於每個任務,我們會識別出明確的口頭表揚(“看起來很棒”、“這正是我需要的”)或明確的口頭投訴(“這壞了”、“你完全誤解了”)的訊息。如果表揚數量超過投訴,則該任務標記為成功。
可操控性——智慧體執行使用者修正。當使用者發出內聯修正(“不,改為做 X”、“你讀錯了檔案”)時,智慧體應嘗試修復。如果使用者接受修復,我們標記修正成功;如果使用者拒絕或放棄,則標記為不成功。在實際工作中,錯誤不可避免——這個訊號捕捉了這些錯誤是否得到快速解決。
Bash 恢復——從 Bash 錯誤中恢復所需的輪數。當智慧體發出因模型故障(而非環境問題)而出現錯誤的 Bash 命令時,恢復計時開始;我們計算後續的 Bash 呼叫,直到下一個無錯誤命令。如果智慧體放棄,我們會施加額外的懲罰。
工具幻覺——智慧體引用了不存在的工具。這懲罰了編造的工具名稱、產生垃圾名稱的語法錯誤以及思維鏈令牌洩漏到工具欄位的情況。如果智慧體呼叫不存在的工具,我們將任務標記為失敗。
這五個訊號只是起點。我們計劃增加更多訊號以進一步豐富這些評估,淘汰已過時的訊號,並在改進追蹤挖掘時對其進行修改。
最後,儘管不是排行榜訊號,我們還可以計算智慧體部署後的實際成本,以評估帕累托最優性。我們直接計算會話的確切成本。我們發現有些模型在實踐中更昂貴,儘管按標價更便宜。這是由於模型行為(例如每步更多步驟)或誘導的使用者行為(例如需要更多輪才能達到滿意)所致。
現在,我們深入探討排行榜背後的資料。Agent Arena 是一個即時的真實使用者流,請求模型完成工作:編寫程式碼、除錯損壞的專案、透過網路進行研究、建立文件、構建前端、分析檔案以及迭代多步驟任務。
在最近的 7 天切片中,Arena 看到了 160,480 個 Agent Mode 任務(注意一個會話中可能有多個任務)。最大的類別是程式碼編寫(17.5%)、研究與查詢(10.8%)、規劃和頭腦風暴(10.6%)以及多模態影像/影片工作(10.2%),其次是文件建立(9.1%)和程式碼除錯(8.9%)。僅程式碼編寫就約佔 28,000 個任務,還有約 14,000 個程式碼除錯任務和約 17,000 個研究與查詢任務。
在 128,244 個會話中,75.6% 使用了至少一個工具——41.1% 執行了 Bash,27.1% 執行了網路搜尋。在這一週內,Agent Mode 發出了 200 萬個結構化工具呼叫,包括約 93.6 萬次 Bash 呼叫、約 55 萬次檔案寫入和約 27.5 萬次網路搜尋。
透過成功的 write_file 呼叫跟蹤,Agent Mode 在過去一週內編寫了 4030 萬行程式碼——大約每個編碼會話 1000 行。
在過去的 7 天裡,會話平均執行約 16.5 次結構化工具呼叫,而高工具呼叫會話足夠常見,形成了自己的佇列:超過 3400 個迴圈過濾會話在一週內執行了非常長的工具鏈。這些會話主要是實際工作——53.2% 是編碼或倉庫除錯,39.0% 是產物/檔案建立,其餘涉及網路合成、終端工作流和資料分析。
最後,約 32% 的近期會話在最終輪結束時至少包含 128k 個輸入令牌,22% 至少包含 256k,8% 至少包含 1M。
在一批最重的實際會話樣本中,我們看到了:一個即時體育電視節目表網站、一個自主水下航行器自動駕駛儀、一個自託管電影觀看列表應用、一個金融研究 RAG 流水線、一個即時學習追蹤平臺等等。許多會話以使用者下載完成的工作空間結束。