AI News HubLIVE
站内改写2 分鐘閱讀

NVIDIA garak教程:使用自定義探測器和檢測器構建完整的防禦性LLM紅隊工作流

本教程全面介紹NVIDIA garak框架,用於防禦性LLM紅隊測試。涵蓋安裝、外掛發現、幹執行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器建立,以及AVID格式匯出。透過端到端示例,展示如何評估和增強LLM安全性。

來源MarkTechPost作者: Sana Hassan

本教程深入探討了NVIDIA garak作為防禦性LLM紅隊測試的實用框架。我們從設定Garak開始,逐步講解外掛發現、幹執行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器建立,以及AVID匯出。不同於僅執行單次掃描,我們端到端地使用Garak,以理解探測、檢測、生成、報告和漏洞評分如何協同工作,構建完整的LLM安全測試工作流。

首先,我們設定環境並定義輔助函式。教程匯入所需庫,建立一個從筆記本直接執行shell命令的輔助函式。我們安裝Garak,配置基礎環境變數,並匯入主要模組。還定義了一個可重用函式,用於以程式設計方式執行Garak並捕獲生成報告的路徑。

接著,我們探索Garak的外掛生態,列出可用的探測、檢測、生成器和buff。然後使用測試生成器快速幹執行,確保Garak正常工作。之後,我們掃描一個真實的Hugging Face模型,並進行多探測器掃描以生成更豐富的報告用於分析。

在分析階段,我們使用pandas和NumPy載入並處理Garak生成的報告。我們嘗試使用Garak內建的報告解析器,若不可用則手動解析JSONL報告檔案。計算安全評分和攻擊成功率,並透過條形圖視覺化不同探測-檢測組合的脆弱性。

我們進一步檢查報告中檢測器分數較高的樣本,提取被標記的提示、分數和探測名稱,以理解被檢測出的行為模式。然後建立自定義Garak探測,使用固定提示並關聯自定義檢測器。

最後,我們定義自定義檢測器,用於標記包含“hello”的輸出,並將其儲存到Garak的檢測包中。執行自定義探測和檢測器驗證擴充套件是否正常工作。最終將報告匯出為AVID格式,並展示用於連線外部模型端點的REST配置模板。

總之,我們完成了一個完整的動手工作流,用於使用NVIDIA garak測試LLM行為。執行內建探測、分析安全評分和攻擊成功率、檢查具體標記輸出,並擴充套件Garak的自定義探測和檢測器。還以AVID格式匯出結果,便於結構化漏洞報告。這為評估授權測試的模型和構建高階防禦性紅隊流水線提供了平臺。