2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

它足夠智慧體化了嗎？使用自有工具對開源模型進行基準測試

一個全新的基準測試框架專注於評估AI智慧體使用軟體庫的整個過程工作量，以Hugging Face的Transformers庫為案例。透過測量令牌使用量、時間、錯誤率等指標，揭示不同模型和工具層級下的效能權衡，為庫維護者和智慧體使用者提供關鍵見解。

來源Hugging Face Blog

隨著AI智慧體越來越多地接管編碼任務，軟體庫的設計不僅需要面向人類開發者，還需面向智慧體。一個不直觀的API或過時的文件不僅困擾人類開發者，還會使智慧體花費更多時間和成本。大多數現有基準測試只關注最終答案是否正確，忽略了智慧體解決問題的過程。為此，我們開發了一個新的基準測試框架，專注於測量智慧體完成任務的“工作量”，包括令牌使用量、時間、錯誤率等指標。

我們以Hugging Face的Transformers庫為例，測試了三種不同的工具層級：裸安裝（僅pip install transformers）、克隆原始碼（將整個transformers倉庫檢出到工作目錄）以及打包Skill（將CLI文件和任務示例打包成可載入的上下文）。這三個層級並非巢狀關係，每個層級給智慧體提供不同型別的幫助。我們使用pi編碼智慧體驅動所有實驗，並透過Hugging Face Jobs在相同硬體上並行執行所有組合，確保公平比較。

實驗分為兩類：針對大型開源模型，我們固定模型並改變Transformers的版本（從v5.8.0到引入CLI和Skill的提交），觀察智慧體的工作量變化；針對小型模型，我們固定庫版本並改變模型，檢視不同大小和能力模型的表現。結果顯示，引入CLI和Skill後，大型模型完成任務的中位時間顯著降低，但克隆層級下的令牌消耗卻大幅上升——因為智慧體會讀取新新增的CLI程式碼和示例來了解介面。這一權衡值得注意：智慧體在單次執行中支付了“發現成本”，但在實際應用中，這種成本會隨著多次任務分攤。對於小型模型，工具的易用性更為關鍵：它們更容易猜測錯誤的API，產生不必要的工具呼叫，甚至給出錯誤答案。

該框架不僅幫助庫維護者最佳化程式碼以更好地服務於智慧體，也幫助使用者選擇適合其任務的模型。所有執行結果和追蹤日誌都儲存在Hugging Face Bucket中，並可透過互動報告檢視。我們相信，隨著智慧體生態的發展，面向智慧體的軟體設計和評估將變得越來越重要。