AI News HubLIVE
サイト内リライト2 分で読了

プロベナンス分析によるLLMエージェントのミスアライメント防止

本論文は、LLMエージェントのツール呼び出しにおけるミスアライメントを検出するための、プロベナンスに基づく概念フレームワークを提案する。研究者らは、ツール実行前に3種類のミスアライメントを分析する多段階パイプラインProvenanceGuardを開発した。Agent-SafetyBenchとWorkBenchで10のバックボーンLLMを用いた評価では、エラー率をそれぞれ42.9%から1.8%、32.1%から17.3%に低減し、タスク成功軌跡への介入負担を30.5%から12.8%に削減した。

ソースarXiv Computational Linguistics著者: Yining She, Yiliang Liang, Eunsuk Kang

大規模言語モデル(LLM)エージェントが強力なツールにアクセスできるようになるにつれて、その行動がユーザーの意図と一致していることを確保することが重要性を増しています。エージェントが提案するツールの呼び出しがユーザーの意図から逸脱する現象(ミスアライメント)は、元に戻すのが困難な有害な結果を引き起こす可能性があります。例えば、エージェントが誤ってファイル削除操作を実行したり、許可されていないデータにアクセスしたりすると、その影響は深刻です。既存の実行時ガードレールは、LLMを判定者とするパラダイム(LLM-as-a-judge)に依存しており、アライメントに関する推論のための体系的なフレームワークを欠いています。そのため、判断が一貫しなかったり、監査が困難だったりすることが多く、また判定者自身のバイアスの影響も受けやすいという問題があります。

データのプロベナンス(出自)分析に着想を得て、本論文では、ミスアライメント検出を、提案されたツール呼び出しがエージェントのコンテキスト内のトレーサブルな証拠によってサポートされているかどうかを判断することとして形式化する、プロベナンスベースの概念フレームワークを提案します。具体的には、エージェントがツールを呼び出す前に、その内部状態や会話履歴に、呼び出しが正当でユーザーの意図に沿っていることを示す明確でトレーサブルな証拠の連鎖が存在しなければなりません。このフレームワークに基づき、研究者らはProvenanceGuardを開発しました。これは、選択されたツールが実行される前に、エージェントの行動を3種類のミスアライメント(コンテキストミスアライメント、意図ミスアライメント、動作ミスアライメント)について分析し、これらのいずれも検出されない場合にのみツールの実行を許可する多段階パイプラインです。

提案手法は、Agent-SafetyBench(エージェント安全性をテストするためのベンチマーク)とWorkBench(より汎用的なワークフローベンチマーク)の2つのベンチマークで、10種類のバックボーンLLMを用いて評価されました。実験結果によると、LLM-as-a-judgeベースラインと比較して、ProvenanceGuardはAgent-SafetyBenchでミスアライメント軌跡のエラー率を42.9%から1.8%に、WorkBenchで32.1%から17.3%に低減しました。また、タスク成功軌跡への介入負担(正しい行動を誤って阻止する割合)は30.5%から12.8%に減少し、アライメント済みの軌跡への不必要な介入の統計的に有意な増加は見られませんでした。これらの結果は、構造化されたプロベナンスベースの推論が、LLMエージェントをミスアライメントから保護するための効果的かつ実用的な基盤を提供することを示しています。この研究は、特に金融や医療などのハイリスク領域において、より安全で信頼性の高いAIエージェントシステムを構築するための新たな道を開くものです。