AI News HubLIVE
サイト内リライト2 分で読了

新たな論文:AIエージェントの信頼性科学に向けて

研究者らはAIエージェントの信頼性を測定する枠組みを提案し、12の指標に分解。14のモデルを18ヶ月にわたってテストした結果、能力は急速に向上したが信頼性の向上は緩やかであり、信頼性を独立した次元として最適化するよう呼びかけている。

ソースAI Snake Oil著者: Sayash Kapoor

プリンストン大学のStephan Rabanser、Sayash Kapoor、Arvind Narayanan氏らによる新しい論文が、AIエージェントの信頼性に関する体系的な研究を発表した。この研究は、原子力や航空などの安全重視の工学分野からの知見を借りて、信頼性を12の指標に分解し、4つの主要次元(一貫性、頑健性、予測可能性、安全性)に分類している。

研究チームは、OpenAI、Google、Anthropicの14モデルを18ヶ月にわたってテストし、汎用アシスタントベンチマークGAIAと顧客サービスシミュレーションベンチマークTauBenchを使用した。各タスクを5回繰り返し、指示の言い換えやツール障害の注入を行い、合計500回のベンチマーク実行を実施した。

その結果、18ヶ月間で精度は大幅に向上したが、信頼性の向上はわずかだった。3社のモデルは同程度の信頼性を示し、業界全体の限界であることが示唆された。具体的には、一貫性のスコアは30%から75%の範囲で、多くのモデルが同じタスクを繰り返しても失敗することがある。頑健性については、技術的障害には対応できるが、意味的に同じ指示を言い換えただけで性能が大幅に低下する。予測可能性は最も弱い次元であり、多くのモデルは正しい予測と誤った予測を区別できない。安全性は、最近のモデルで制約違反が減少したが、誤った請求金などの財務エラーは依然として一般的な障害モードである。

論文は、現在の業界が信頼性を適切に測定するツールを欠いており、定義すら統一されていないと指摘する。研究者は、精度と並行して信頼性プロファイルを報告することを提案する。デプロイヤーには、自動化と増強(人間が監視するツール)を明確に区別し、自動化ツールには信頼性閾値を設定するよう勧めている。

研究には限界もあるが、能力と信頼性のギャップがAIエージェントの経済的影響が緩やかな理由の一つかもしれないと論じている。高リスクシナリオで自律運用するには99.9%から99.999%の精度が必要だが、LLMベースのエージェントはその域に達していない。今後の研究では、推論スケーリングや強化学習のような汎用的な手法か、各信頼性次元の個別改善が必要かが焦点となる。コードとインタラクティブダッシュボードは公開されている。