開放智慧體排行榜
IBM研究團隊推出開放智慧體排行榜(Open Agent Leaderboard),這是一個用於比較完整智慧體系統(而不僅僅是模型)的開放基準。它評估智慧體在多種真實場景中的通用性,並同時報告質量和成本。該排行榜結合了六個基準測試,涵蓋編碼、客服、技術支援和研究等任務。初步結果顯示,通用智慧體已能與專用系統媲美,且智慧體架構對結果的影響日益顯著。所有程式碼、資料和論文均已開源。
文章情報
要點
- 開放智慧體排行榜衡量的是完整智慧體系統(模型+工具+規劃等),而非僅模型本身。
- 排行榜包含六個不同領域的基準測試,如SWE-Bench Verified和BrowseComp+。
- 通用智慧體已在多個任務上達到或超越專用系統的表現。
- 智慧體架構(如工具篩選)對效能和成本有重大影響。
為什麼重要
這條新聞值得關注,因為開放智慧體排行榜衡量的是完整智慧體系統(模型+工具+規劃等),而非僅模型本身。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
IBM研究團隊今日釋出了開放智慧體排行榜(Open Agent Leaderboard),這是一個旨在評估和比較完整AI智慧體系統效能的開放基準。與通常只關注模型分數的傳統評測不同,該排行榜將智慧體視為一個由模型、工具使用、規劃、記憶和錯誤恢復等模組組成的整體系統,並同時衡量其質量和執行成本。
研究團隊指出,AI智慧體的實際效果不僅取決於內部模型,更取決於整個系統的構建方式。相同的模型在不同的智慧體框架下可能產生截然不同的結果和成本。因此,該排行榜的每個條目都是一個完整的智慧體系統配置(特定智慧體搭配特定模型),並展示其在所有六個基準測試中的平均成功率、每次任務的平均成本以及每個基準的詳細得分。
排行榜目前涵蓋6個基準:SWE-Bench Verified(修復真實程式碼倉庫中的錯誤)、BrowseComp+(透過網路進行復雜研究)、AppWorld(跨數百個應用完成個人任務)、tau2-Bench航空與零售(遵循公司政策的客服)以及tau2-Bench電信(技術支援)。這些基準被特意選擇以覆蓋編碼、客服、技術支援和研究等多樣化的真實場景。
為了統一這些基準,研究團隊設計了一個通用協議,將每個任務標準化為“任務(做什麼)、上下文(知道什麼)、動作集合(允許做什麼)”的結構,使不同智慧體可以透過統一介面與各基準互動,而不必適配每個基準的獨特格式。
排行榜的初步結果帶來了幾個重要發現。首先,通用智慧體已具備競爭力:在多個基準上,未經針對特定基準最佳化的通用智慧體系統,其表現與專門為該任務設計的專用系統相當甚至更優。其次,不同智慧體的失敗模式差異很大——有些快速廉價地失敗,有些則消耗大量時間和資源後才放棄。實驗中,失敗執行的成本比成功執行高出20%至54%,這意味著在生產環境中,失敗行為對總賬單的影響與成功同樣重要。
研究還揭示,模型選擇仍是決定效能的首要因素,但智慧體架構的作用正變得越來越明顯。特別是工具篩選(幫助智慧體聚焦於相關工具而非全域性搜尋)能夠顯著提升所有測試模型的表現,甚至將原本無效的配置轉變為可行的方案。
目前排行榜上五種模型(包括兩種開放權重模型DeepSeek V3.2和Kimi K2.5)的結果顯示,開放權重模型在特定組合上表現不錯,但整體平均落後於前沿閉源模型18至29個百分點。
所有相關資源均已開源:排行榜網站供瀏覽結果,Exgentic框架供復現評測,以及一篇詳細介紹方法和實證分析的論文。研究團隊邀請社群貢獻新的智慧體、基準和模型,以共同將這一標準發展壯大。
開放智慧體排行榜的推出,標誌著AI智慧體評估從“模型中心”轉向“系統中心”的重要一步。隨著智慧體系統日益複雜,這種全面、透明的評估方式對於推動該領域的健康發展至關重要。