2026-06-07 13:11 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA garak教程：使用自定義探測器和檢測器構建完整的防禦性LLM紅隊工作流

本教程全面介紹NVIDIA garak框架，用於防禦性LLM紅隊測試。涵蓋安裝、插件發現、幹運行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器創建，以及AVID格式導出。通過端到端示例，展示如何評估和增強LLM安全性。

來源MarkTechPost作者: Sana Hassan

本教程深入探討了NVIDIA garak作為防禦性LLM紅隊測試的實用框架。我們從設置Garak開始，逐步講解插件發現、幹運行、真實模型掃描、多探測器評估、報告分析、自定義探測器和檢測器創建，以及AVID導出。不同於僅運行單次掃描，我們端到端地使用Garak，以理解探測、檢測、生成、報告和漏洞評分如何協同工作，構建完整的LLM安全測試工作流。

首先，我們設置環境並定義輔助函數。教程導入所需庫，創建一個從筆記本直接運行shell命令的輔助函數。我們安裝Garak，配置基礎環境變量，並導入主要模塊。還定義了一個可重用函數，用於以編程方式運行Garak並捕獲生成報告的路徑。

接着，我們探索Garak的插件生態，列出可用的探測、檢測、生成器和buff。然後使用測試生成器快速幹運行，確保Garak正常工作。之後，我們掃描一個真實的Hugging Face模型，並進行多探測器掃描以生成更豐富的報告用於分析。

在分析階段，我們使用pandas和NumPy加載並處理Garak生成的報告。我們嘗試使用Garak內置的報告解析器，若不可用則手動解析JSONL報告文件。計算安全評分和攻擊成功率，並通過條形圖可視化不同探測-檢測組合的脆弱性。

我們進一步檢查報告中檢測器分數較高的樣本，提取被標記的提示、分數和探測名稱，以理解被檢測出的行為模式。然後創建自定義Garak探測，使用固定提示並關聯自定義檢測器。

最後，我們定義自定義檢測器，用於標記包含“hello”的輸出，並將其保存到Garak的檢測包中。運行自定義探測和檢測器驗證擴展是否正常工作。最終將報告導出為AVID格式，並展示用於連接外部模型端點的REST配置模板。

總之，我們完成了一個完整的動手工作流，用於使用NVIDIA garak測試LLM行為。運行內置探測、分析安全評分和攻擊成功率、檢查具體標記輸出，並擴展Garak的自定義探測和檢測器。還以AVID格式導出結果，便於結構化漏洞報告。這為評估授權測試的模型和構建高級防禦性紅隊流水線提供了平台。