智慧體技能有效,但研究表明大多數團隊構建方式有誤
最新研究揭示了智慧體技能的實際效果:精心策劃的技能可將任務完成率平均提升16.2%,但自生成的技能無顯著效果。隨著技能庫增長,扁平化管理失效,分層組織成為關鍵。同時,約四分之一的社群技能存在安全漏洞。本文深入分析了這些發現,並提供實用的構建建議。
智慧體技能(Agent Skills)正迅速成為AI領域的熱門概念。Atlassian、Canva、Figma、Stripe等公司已將其整合到產品中,Anthropic釋出的開放標準甚至被微軟快速採納。其核心理念簡潔而強大:為特定工作流編寫一次技能,任何支援該標準的智慧體均可呼叫,從而避免重複構建專用智慧體。
然而,關於技能實際效果的研究才剛剛跟上採用步伐。近期四項論文首次系統性地審視了技能的實際表現。結果顯示,精心策劃的技能(由人類編寫)在84項任務中將智慧體的平均完成率提高了16.2%,而模型自生成的技能在任何配置下均未帶來一致收益。這表明,技能的真正價值在於編碼組織特定知識——那些模型本身無法推理得出的專業知識。
技能庫的擴充套件也帶來新問題。當技能數量超過80個時,扁平目錄的檢索變得不可靠,相似描述的技能會相互衝突。研究提出“能力樹”(Capability Trees)作為解決方案:將技能按領域分層組織,智慧體從領域導航到分支再到葉子節點,避免大規模平鋪的混亂。這一方法在從200到200,000個技能規模的測試中均優於扁平結構。
安全方面同樣不容樂觀。一項對約31,000個社群技能的大規模研究發現,超過四分之一存在可被利用的漏洞,包括提示注入、資料洩露和許可權提升。這強調技能作為維護工件需要持續更新和審查。
對於實際構建者,研究建議優先聚焦小範圍技能(2-3個模組),而不是全面覆蓋;自生成技能必須經過人工審查才能發揮效果;同時應定期評估技能是否仍有效,及時廢棄過時的技能。技能並非萬能,但正確使用將顯著釋放智慧體的潛力。
此外,SkillsBench基準測試發現,聚焦於2-3個模組的窄範圍技能始終優於包羅永珍的大型技能。這一發現對構建者尤為重要:更小、更專注的技能不僅表現更好,還更易於維護和更新。同時,研究發現使用精心策劃技能的小型模型可以匹配未使用技能的大型模型,這意味著在規模部署技能時具有顯著的成本效益。
對於團隊而言,構建技能庫時需注意:技能應針對重複性、有特定流程的任務;應定期評估技能是否仍然有效;當模型能力提升時,原本彌補差距的技能可能變得冗餘,應及時淘汰。總之,技能是強大的工具,但需要審慎設計和持續管理。