AI News HubLIVE
站内改写1 分鐘閱讀

NVIDIA garak教程:使用自定義探測器和檢測器構建完整的防禦性LLM紅隊工作流

本教程全面介紹NVIDIA garak框架,用於防禦性LLM紅隊測試。涵蓋安裝、插件發現、幹運行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器創建,以及AVID格式導出。通過端到端示例,展示如何評估和增強LLM安全性。

來源MarkTechPost作者: Sana Hassan

本教程深入探討了NVIDIA garak作為防禦性LLM紅隊測試的實用框架。我們從設置Garak開始,逐步講解插件發現、幹運行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器創建,以及AVID導出。不同於僅運行單次掃描,我們端到端地使用Garak,以理解探測、檢測、生成、報告和漏洞評分如何協同工作,構建完整的LLM安全測試工作流。

首先,我們設置環境並定義輔助函數。教程導入所需庫,創建一個從筆記本直接運行shell命令的輔助函數。我們安裝Garak,配置基礎環境變量,並導入主要模塊。還定義了一個可重用函數,用於以編程方式運行Garak並捕獲生成報告的路徑。

接着,我們探索Garak的插件生態,列出可用的探測、檢測、生成器和buff。然後使用測試生成器快速幹運行,確保Garak正常工作。之後,我們掃描一個真實的Hugging Face模型,並進行多探測器掃描以生成更豐富的報告用於分析。

在分析階段,我們使用pandas和NumPy加載並處理Garak生成的報告。我們嘗試使用Garak內置的報告解析器,若不可用則手動解析JSONL報告文件。計算安全評分和攻擊成功率,並通過條形圖可視化不同探測-檢測組合的脆弱性。

我們進一步檢查報告中檢測器分數較高的樣本,提取被標記的提示、分數和探測名稱,以理解被檢測出的行為模式。然後創建自定義Garak探測,使用固定提示並關聯自定義檢測器。

最後,我們定義自定義檢測器,用於標記包含“hello”的輸出,並將其保存到Garak的檢測包中。運行自定義探測和檢測器驗證擴展是否正常工作。最終將報告導出為AVID格式,並展示用於連接外部模型端點的REST配置模板。

總之,我們完成了一個完整的動手工作流,用於使用NVIDIA garak測試LLM行為。運行內置探測、分析安全評分和攻擊成功率、檢查具體標記輸出,並擴展Garak的自定義探測和檢測器。還以AVID格式導出結果,便於結構化漏洞報告。這為評估授權測試的模型和構建高級防禦性紅隊流水線提供了平台。