2026-05-18 22:12 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

開放智慧體排行榜

IBM研究團隊推出開放智慧體排行榜（Open Agent Leaderboard），這是一個用於比較完整智慧體系統（而不僅僅是模型）的開放基準。它評估智慧體在多種真實場景中的通用性，並同時報告質量和成本。該排行榜結合了六個基準測試，涵蓋編碼、客服、技術支援和研究等任務。初步結果顯示，通用智慧體已能與專用系統媲美，且智慧體架構對結果的影響日益顯著。所有程式碼、資料和論文均已開源。

來源Hugging Face Blog

IBM研究團隊今日釋出了開放智慧體排行榜（Open Agent Leaderboard），這是一個旨在評估和比較完整AI智慧體系統效能的開放基準。與通常只關注模型分數的傳統評測不同，該排行榜將智慧體視為一個由模型、工具使用、規劃、記憶和錯誤恢復等模組組成的整體系統，並同時衡量其質量和執行成本。

研究團隊指出，AI智慧體的實際效果不僅取決於內部模型，更取決於整個系統的構建方式。相同的模型在不同的智慧體框架下可能產生截然不同的結果和成本。因此，該排行榜的每個條目都是一個完整的智慧體系統配置（特定智慧體搭配特定模型），並展示其在所有六個基準測試中的平均成功率、每次任務的平均成本以及每個基準的詳細得分。

排行榜目前涵蓋6個基準：SWE-Bench Verified（修復真實程式碼倉庫中的錯誤）、BrowseComp+（透過網路進行復雜研究）、AppWorld（跨數百個應用完成個人任務）、tau2-Bench航空與零售（遵循公司政策的客服）以及tau2-Bench電信（技術支援）。這些基準被特意選擇以覆蓋編碼、客服、技術支援和研究等多樣化的真實場景。

為了統一這些基準，研究團隊設計了一個通用協議，將每個任務標準化為“任務（做什麼）、上下文（知道什麼）、動作集合（允許做什麼）”的結構，使不同智慧體可以透過統一介面與各基準互動，而不必適配每個基準的獨特格式。

排行榜的初步結果帶來了幾個重要發現。首先，通用智慧體已具備競爭力：在多個基準上，未經針對特定基準最佳化的通用智慧體系統，其表現與專門為該任務設計的專用系統相當甚至更優。其次，不同智慧體的失敗模式差異很大——有些快速廉價地失敗，有些則消耗大量時間和資源後才放棄。實驗中，失敗執行的成本比成功執行高出20%至54%，這意味著在生產環境中，失敗行為對總賬單的影響與成功同樣重要。

研究還揭示，模型選擇仍是決定效能的首要因素，但智慧體架構的作用正變得越來越明顯。特別是工具篩選（幫助智慧體聚焦於相關工具而非全域性搜尋）能夠顯著提升所有測試模型的表現，甚至將原本無效的配置轉變為可行的方案。

目前排行榜上五種模型（包括兩種開放權重模型DeepSeek V3.2和Kimi K2.5）的結果顯示，開放權重模型在特定組合上表現不錯，但整體平均落後於前沿閉源模型18至29個百分點。

所有相關資源均已開源：排行榜網站供瀏覽結果，Exgentic框架供復現評測，以及一篇詳細介紹方法和實證分析的論文。研究團隊邀請社群貢獻新的智慧體、基準和模型，以共同將這一標準發展壯大。

開放智慧體排行榜的推出，標誌著AI智慧體評估從“模型中心”轉向“系統中心”的重要一步。隨著智慧體系統日益複雜，這種全面、透明的評估方式對於推動該領域的健康發展至關重要。