AI News HubLIVE
站内改写1 分鐘閱讀

它足夠智慧體化了嗎?使用自有工具對開源模型進行基準測試

一個全新的基準測試框架專注於評估AI智慧體使用軟體庫的整個過程工作量,以Hugging Face的Transformers庫為案例。透過測量令牌使用量、時間、錯誤率等指標,揭示不同模型和工具層級下的效能權衡,為庫維護者和智慧體使用者提供關鍵見解。

隨著AI智慧體越來越多地接管編碼任務,軟體庫的設計不僅需要面向人類開發者,還需面向智慧體。一個不直觀的API或過時的文件不僅困擾人類開發者,還會使智慧體花費更多時間和成本。大多數現有基準測試只關注最終答案是否正確,忽略了智慧體解決問題的過程。為此,我們開發了一個新的基準測試框架,專注於測量智慧體完成任務的“工作量”,包括令牌使用量、時間、錯誤率等指標。

我們以Hugging Face的Transformers庫為例,測試了三種不同的工具層級:裸安裝(僅pip install transformers)、克隆原始碼(將整個transformers倉庫檢出到工作目錄)以及打包Skill(將CLI文件和任務示例打包成可載入的上下文)。這三個層級並非巢狀關係,每個層級給智慧體提供不同型別的幫助。我們使用pi編碼智慧體驅動所有實驗,並透過Hugging Face Jobs在相同硬體上並行執行所有組合,確保公平比較。

實驗分為兩類:針對大型開源模型,我們固定模型並改變Transformers的版本(從v5.8.0到引入CLI和Skill的提交),觀察智慧體的工作量變化;針對小型模型,我們固定庫版本並改變模型,檢視不同大小和能力模型的表現。結果顯示,引入CLI和Skill後,大型模型完成任務的中位時間顯著降低,但克隆層級下的令牌消耗卻大幅上升——因為智慧體會讀取新新增的CLI程式碼和示例來了解介面。這一權衡值得注意:智慧體在單次執行中支付了“發現成本”,但在實際應用中,這種成本會隨著多次任務分攤。對於小型模型,工具的易用性更為關鍵:它們更容易猜測錯誤的API,產生不必要的工具呼叫,甚至給出錯誤答案。

該框架不僅幫助庫維護者最佳化程式碼以更好地服務於智慧體,也幫助使用者選擇適合其任務的模型。所有執行結果和追蹤日誌都儲存在Hugging Face Bucket中,並可透過互動報告檢視。我們相信,隨著智慧體生態的發展,面向智慧體的軟體設計和評估將變得越來越重要。