2026-06-07 13:11 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA garak教程：使用自定義探測器和檢測器構建完整的防禦性LLM紅隊工作流

本教程全面介紹NVIDIA garak框架，用於防禦性LLM紅隊測試。涵蓋安裝、外掛發現、幹執行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器建立，以及AVID格式匯出。透過端到端示例，展示如何評估和增強LLM安全性。

來源MarkTechPost作者: Sana Hassan

本教程深入探討了NVIDIA garak作為防禦性LLM紅隊測試的實用框架。我們從設定Garak開始，逐步講解外掛發現、幹執行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器建立，以及AVID匯出。不同於僅執行單次掃描，我們端到端地使用Garak，以理解探測、檢測、生成、報告和漏洞評分如何協同工作，構建完整的LLM安全測試工作流。

首先，我們設定環境並定義輔助函式。教程匯入所需庫，建立一個從筆記本直接執行shell命令的輔助函式。我們安裝Garak，配置基礎環境變數，並匯入主要模組。還定義了一個可重用函式，用於以程式設計方式執行Garak並捕獲生成報告的路徑。

接著，我們探索Garak的外掛生態，列出可用的探測、檢測、生成器和buff。然後使用測試生成器快速幹執行，確保Garak正常工作。之後，我們掃描一個真實的Hugging Face模型，並進行多探測器掃描以生成更豐富的報告用於分析。

在分析階段，我們使用pandas和NumPy載入並處理Garak生成的報告。我們嘗試使用Garak內建的報告解析器，若不可用則手動解析JSONL報告檔案。計算安全評分和攻擊成功率，並透過條形圖視覺化不同探測-檢測組合的脆弱性。

我們進一步檢查報告中檢測器分數較高的樣本，提取被標記的提示、分數和探測名稱，以理解被檢測出的行為模式。然後建立自定義Garak探測，使用固定提示並關聯自定義檢測器。

最後，我們定義自定義檢測器，用於標記包含“hello”的輸出，並將其儲存到Garak的檢測包中。執行自定義探測和檢測器驗證擴充套件是否正常工作。最終將報告匯出為AVID格式，並展示用於連線外部模型端點的REST配置模板。

總之，我們完成了一個完整的動手工作流，用於使用NVIDIA garak測試LLM行為。執行內建探測、分析安全評分和攻擊成功率、檢查具體標記輸出，並擴充套件Garak的自定義探測和檢測器。還以AVID格式匯出結果，便於結構化漏洞報告。這為評估授權測試的模型和構建高階防禦性紅隊流水線提供了平臺。