AI News HubLIVE
站内改写2 分で読了

エンタープライズAIエージェントのデプロイ前保証に向けて:オントロジーに基づくシミュレーションと信頼認証

本論文は、エンタープライズAIエージェントのデプロイ前保証のためのオントロジーに基づく検証フレームワークを提案する。フレームワークは、エージェント運用エンベロープ、オントロジーからシナリオ生成パイプライン、トラスト証明書の3つのコンポーネントから構成される。米国とベトナムの4つの規制産業でのパイロットにより1,800のシナリオを生成し、オントロジーに基づく生成がペルソナベースのベースラインの33.1%に対し48.3%の規制カバレッジを達成し、最高のドメイン特異性を示した。

ソースarXiv AI著者: Thanh Luong Tuan, Abhijit Sanyal

エンタープライズAIエージェントのデプロイ前検証は、大規模言語モデルの能力ベンチマークと本番展開との間の重要なギャップであり続けています。デプロイ後の監視、ヒューマンインザループ制御、プロンプトレベルのガードレールなどの既存手法では、エージェントが本番環境で動作し始めると限定的な保証しか提供できません。この問題に対処するため、研究者らは規制集約型ドメイン向けのエンタープライズAIエージェントに定量化可能なデプロイ前保証を提供する、オントロジーに基づく検証フレームワークを提案しました。

このフレームワークは3つの中核コンポーネントから構成されます。まず、エージェント運用エンベロープは、権限、ドメイン制約、安全特性、ガバナンスルール、自律性レベルにわたって認証空間を形式化します。次に、オントロジーからシナリオ生成パイプラインは、規制、運用、および敵対的なテストシナリオを自動的に導出します。最後に、トラスト証明書は機械検証可能な証明書を保持し、承認、条件付き、拒否の段階的デプロイ判定を提供します。研究チームは、米国とベトナムの5つの産業・規制制度セルにわたって、フィンテック、銀行、保険、ヘルスケアの4つの規制産業で制御されたパイロットを実施しました。これにより1,800のシナリオが生成され、125の一次規制要件と25の注入障害に対して評価されました。

結果は、オントロジーに基づく生成(G4)が48.3%の規制カバレッジを達成し、ペルソナベースのベースライン(33.1%、補正後p=0.0006)を有意に上回り、最高のドメイン特異性スコア(4.77/5.0、p=2e-6)を示しました。ただし、Bonferroni補正後は、ベースラインや検索拡張プロンプトに対するカバレッジ優位性は頑健ではありませんでした。結果の一般性を確認するため、研究チームは3つのLLMファミリー(Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B)で交差検証を実施し、合計5,400のシナリオを生成しました。この検証でもペルソナ対オントロジーのパターンが再現されました。これらの結果は、規制集約型ドメインにおいて、オントロジーに基づくシナリオ生成がペルソナベースのテストスイートに対する信頼できる補完手段であることを示しています。ただし、実際のデプロイ前にはさらに頑健性を向上させる必要があります。本論文は、モデル選定、推論コスト、プロダクト能力、評価基準への影響についても考察しており、中級以上のエンジニアにとって有益な内容です。