2026-06-05 01:29 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Agent Arena：真實世界中智能體的因果評估

Agent Arena 是一個基於真實世界用户交互數據的新智能體評估框架，採用因果追蹤方法對智能體組件進行隨機對照試驗，從而生成可解釋的排行榜。本文詳細介紹了其方法論、五個關鍵信號（確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺）以及大量真實使用數據（任務分佈、工具調用、代碼行數等），並展示了幾個高複雜度任務案例。

來源Hacker News AI作者: matt_d

文章情報

工程師中級

要點

Agent Arena 使用因果追蹤方法，將智能體視為多組件系統，通過隨機化組件選擇來估計淨改進效果。
排行榜基於五個信號：確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺。
數據顯示，在 7 天內 Agent Mode 執行了超過 160,000 個任務，其中代碼編寫佔 17.5%，Bash 調用約 93.6 萬次，寫了約 4030 萬行代碼。
高代際複雜度任務常見，32% 的會話最終輪輸入上下文超過 128k 個令牌。

為甚麼重要

這條新聞值得關注，因為Agent Arena 使用因果追蹤方法，將智能體視為多組件系統，通過隨機化組件選擇來估計淨改進效果。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

AI 智能體正越來越多地承擔實際工作。從聊天到終端再到 OpenClaw，用户們正在與由模型和包含眾多子組件及工具的 harness 組成的複雜智能體進行交互。隨之而來的是任務分佈的極大擴展。這使得智能體評估變得越來越困難，因為任務覆蓋範圍和任務複雜性都在同步增長。我們需要一種能夠隨着使用情況和能力而擴展的智能體評估方法。

今天，我們發佈了 Agent Arena 排行榜。Arena 始終專注於現實世界中的評估。為此，Agent Arena 收集並分析了數百萬次來自人們在 arena.ai/agent 上使用 Agent Mode 進行實際工作的野外交互——包括軟件工程、金融分析等。基於這些在我們平台上運行的智能體的觀察，我們得出了第一個 Agent Arena 排行榜。

Agent Arena 排行榜使用的評估方法不同於我們之前的 Arena。它不是依賴於成對投票，而是使用一種我們稱之為因果追蹤的方法來計算排名。因果追蹤將智能體視為一個多組件系統，每個組件選擇代表一種可能的處理。我們觀察單個點狀軌跡並測量各種信號，例如任務成功率、口頭反饋、工具錯誤恢復、工具幻覺等。然後，通過隨機化組件選擇，我們創建了一個多幹預的隨機對照試驗，在該試驗中我們可以聚合測量結果以估計因果處理效果。我們在上圖中將這些效果稱為“淨改進”。因果框架產生了一個可解釋的排名，該排名代表了由於組件選擇而帶來的智能體性能提升。這分解了主編排模型、任何子智能體、圖像生成模型以及 harness 中不同元素的貢獻，使我們能夠將多個信號合併為一個連貫的排行榜。

這個首期排行榜是我們對編排模型（即選擇調用哪些工具的主要大語言模型）進行因果評估的結果。智能體 harness 其他方面的排名即將推出。下文統計方法部分包含了更多方法細節。

每個 Agent Arena 會話都包含豐富的反饋流。用户用自然語言與智能體進行迭代，逐輪表達贊同、不滿或澄清。他們決定是否下載智能體產生的產物。他們點擊明確的“贊同/反對”按鈕。當智能體偏離軌道時，他們會發出內聯修正。而智能體方面，則與一個不斷反饋的環境進行交互：shell 退出碼、工具錯誤、它試圖調用的工具不存在等。Agent Mode 使我們能夠提取所有這些信號——明確的用户反饋、隱含的用户反饋以及來自智能體環境的反饋。在計算出每個會話中每個信號的結果後，我們使用因果方法將其轉化為排行榜，然後彙總成主排行榜。今天，我們首先展示 5 個信號，並計劃在不久的將來測量更多信號。

主排行榜彙總了以下信號：

確認成功——用户使用 Arena UI 將任務標記為成功或失敗。Arena 在每一步都提供“贊同”和“反對”按鈕；我們使用給定任務軌跡的最終贊同或反對來確定結果。（一個會話中可以有多個任務。）

表揚與投訴——用户對智能體的輸出表示表揚或投訴。對於每個任務，我們會識別出明確的口頭表揚（“看起來很棒”、“這正是我需要的”）或明確的口頭投訴（“這壞了”、“你完全誤解了”）的消息。如果表揚數量超過投訴，則該任務標記為成功。

可操控性——智能體執行用户修正。當用户發出內聯修正（“不，改為做 X”、“你讀錯了文件”）時，智能體應嘗試修復。如果用户接受修復，我們標記修正成功；如果用户拒絕或放棄，則標記為不成功。在實際工作中，錯誤不可避免——這個信號捕捉了這些錯誤是否得到快速解決。

Bash 恢復——從 Bash 錯誤中恢復所需的輪數。當智能體發出因模型故障（而非環境問題）而出現錯誤的 Bash 命令時，恢復計時開始；我們計算後續的 Bash 調用，直到下一個無錯誤命令。如果智能體放棄，我們會施加額外的懲罰。

工具幻覺——智能體引用了不存在的工具。這懲罰了編造的工具名稱、產生垃圾名稱的語法錯誤以及思維鏈令牌泄漏到工具字段的情況。如果智能體調用不存在的工具，我們將任務標記為失敗。

這五個信號只是起點。我們計劃增加更多信號以進一步豐富這些評估，淘汰已過時的信號，並在改進追蹤挖掘時對其進行修改。

最後，儘管不是排行榜信號，我們還可以計算智能體部署後的實際成本，以評估帕累托最優性。我們直接計算會話的確切成本。我們發現有些模型在實踐中更昂貴，儘管按標價更便宜。這是由於模型行為（例如每步更多步驟）或誘導的用户行為（例如需要更多輪才能達到滿意）所致。

現在，我們深入探討排行榜背後的數據。Agent Arena 是一個實時的真實用户流，請求模型完成工作：編寫代碼、調試損壞的項目、通過網絡進行研究、創建文檔、構建前端、分析文件以及迭代多步驟任務。

在最近的 7 天切片中，Arena 看到了 160,480 個 Agent Mode 任務（注意一個會話中可能有多個任務）。最大的類別是代碼編寫（17.5%）、研究與查找（10.8%）、規劃和頭腦風暴（10.6%）以及多模態圖像/視頻工作（10.2%），其次是文檔創建（9.1%）和代碼調試（8.9%）。僅代碼編寫就約佔 28,000 個任務，還有約 14,000 個代碼調試任務和約 17,000 個研究與查找任務。

在 128,244 個會話中，75.6% 使用了至少一個工具——41.1% 運行了 Bash，27.1% 運行了網絡搜索。在這一週內，Agent Mode 發出了 200 萬個結構化工具調用，包括約 93.6 萬次 Bash 調用、約 55 萬次文件寫入和約 27.5 萬次網絡搜索。

通過成功的 write_file 調用跟蹤，Agent Mode 在過去一週內編寫了 4030 萬行代碼——大約每個編碼會話 1000 行。

在過去的 7 天裏，會話平均執行約 16.5 次結構化工具調用，而高工具調用會話足夠常見，形成了自己的隊列：超過 3400 個循環過濾會話在一週內運行了非常長的工具鏈。這些會話主要是實際工作——53.2% 是編碼或倉庫調試，39.0% 是產物/文件創建，其餘涉及網絡合成、終端工作流和數據分析。

最後，約 32% 的近期會話在最終輪結束時至少包含 128k 個輸入令牌，22% 至少包含 256k，8% 至少包含 1M。

在一批最重的實際會話樣本中，我們看到了：一個實時體育電視節目表網站、一個自主水下航行器自動駕駛儀、一個自託管電影觀看列表應用、一個金融研究 RAG 流水線、一個實時學習追蹤平台等等。許多會話以用户下載完成的工作空間結束。