2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

它足夠智能體化了嗎？使用自有工具對開源模型進行基準測試

一個全新的基準測試框架專注於評估AI智能體使用軟件庫的整個過程工作量，以Hugging Face的Transformers庫為案例。通過測量令牌使用量、時間、錯誤率等指標，揭示不同模型和工具層級下的性能權衡，為庫維護者和智能體用户提供關鍵見解。

來源Hugging Face Blog

隨着AI智能體越來越多地接管編碼任務，軟件庫的設計不僅需要面向人類開發者，還需面向智能體。一個不直觀的API或過時的文檔不僅困擾人類開發者，還會使智能體花費更多時間和成本。大多數現有基準測試只關注最終答案是否正確，忽略了智能體解決問題的過程。為此，我們開發了一個新的基準測試框架，專注於測量智能體完成任務的“工作量”，包括令牌使用量、時間、錯誤率等指標。

我們以Hugging Face的Transformers庫為例，測試了三種不同的工具層級：裸安裝（僅pip install transformers）、克隆源碼（將整個transformers倉庫檢出到工作目錄）以及打包Skill（將CLI文檔和任務示例打包成可加載的上下文）。這三個層級並非嵌套關係，每個層級給智能體提供不同類型的幫助。我們使用pi編碼智能體驅動所有實驗，並通過Hugging Face Jobs在相同硬件上並行運行所有組合，確保公平比較。

實驗分為兩類：針對大型開源模型，我們固定模型並改變Transformers的版本（從v5.8.0到引入CLI和Skill的提交），觀察智能體的工作量變化；針對小型模型，我們固定庫版本並改變模型，查看不同大小和能力模型的表現。結果顯示，引入CLI和Skill後，大型模型完成任務的中位時間顯著降低，但克隆層級下的令牌消耗卻大幅上升——因為智能體會讀取新添加的CLI代碼和示例來了解接口。這一權衡值得注意：智能體在單次運行中支付了“發現成本”，但在實際應用中，這種成本會隨着多次任務分攤。對於小型模型，工具的易用性更為關鍵：它們更容易猜測錯誤的API，產生不必要的工具調用，甚至給出錯誤答案。

該框架不僅幫助庫維護者優化代碼以更好地服務於智能體，也幫助用户選擇適合其任務的模型。所有運行結果和追蹤日誌都存儲在Hugging Face Bucket中，並可通過互動報告查看。我們相信，隨着智能體生態的發展，面向智能體的軟件設計和評估將變得越來越重要。