AI News HubLIVE
站内改写2 分で読了

NVIDIA garakチュートリアル:カスタムプローブと検出器を用いた完全な防御的LLMレッドチーミングワークフローの構築

このチュートリアルでは、防御的LLMレッドチーミングのためのエンドツーエンドフレームワークであるNVIDIA garakを詳しく解説します。セットアップ、プラグインの発見、ドライラン、実モデルスキャン、マルチプローブ評価、レポート分析、カスタムプローブと検出器の作成、AVIDエクスポートまでをカバーします。

ソースMarkTechPost著者: Sana Hassan

このチュートリアルでは、防御的LLMレッドチーミングのための実用的なフレームワークであるNVIDIA garakを分析します。Garakのセットアップから始め、プラグインの発見、ドライラン、実モデルスキャン、マルチプローブ評価、レポート分析、カスタムプローブの作成、カスタム検出器の作成、AVIDエクスポートへと進みます。単一スキャンを実行するだけでなく、Garakをエンドツーエンドで使用して、プローブ、検出器、ジェネレーター、レポート、脆弱性スコアが完全なLLMセキュリティテストワークフローでどのように連携するかを理解します。

まず、環境をセットアップし、ヘルパー関数を定義します。必要なライブラリをインポートし、ノートブックから直接シェルコマンドを実行するヘルパー関数を作成します。Garakをインストールし、基本環境変数を設定し、主要モジュールをインポートします。また、プログラム的にGarakを実行し、生成されたレポートへのパスを取得する再利用可能な関数を定義します。

次に、Garakのプラグインエコシステムを調査し、利用可能なプローブ、検出器、ジェネレーター、バフを一覧表示します。その後、テストジェネレーターを使用してクイックドライランを実行し、外部モデルやAPIキーを必要とせずにGarakが正しく動作することを確認します。その後、実際のHugging Faceモデルをスキャンし、マルチプローブスキャンを実行して分析用のリッチなレポートを生成します。

分析フェーズでは、pandasとNumPyを使用して生成されたGarakレポートをロードし、処理します。Garakの組み込みレポートパーサーを最初に試し、利用できない場合はJSONLレポートファイルを手動で解析します。安全スコアと攻撃成功率を計算し、プローブと検出器の組み合わせごとに脆弱性を可視化します。

さらに、検出器スコアが高いサンプルヒットを抽出し、フラグが立てられたプロンプト、スコア、プローブ名を収集して、どのような動作が検出されているかを理解します。次に、固定プロンプトを使用し、カスタム検出器と連携するカスタムGarakプローブを作成します。

最後に、「hello」という単語を含む出力をフラグするカスタム検出器を定義し、Garakの検出器パッケージ内に保存します。カスタムプローブと検出器をテストジェネレーターに対して実行し、拡張が正しく動作することを確認します。最終的にGarakレポートをAVID形式でエクスポートし、外部モデルエンドポイントに接続するためのREST設定テンプレートを示します。

結論として、NVIDIA garakを使用してLLMの動作をテストするための完全なハンズオンワークフローを完了しました。ビルトインプローブの実行、安全スコアと攻撃成功率の分析、具体的なフラグ出力の検査、そして独自のカスタムプローブと検出器によるGarakの拡張を行いました。また、結果をAVID形式でエクスポートし、構造化された脆弱性レポートに役立てるようにしました。これにより、テストを許可されたモデルを評価し、より高度な防御的レッドチーミングパイプラインを構築するためのプラットフォームが提供されます。