LangSmithとLangChain OSSがEU AI Actの要件を満たす方法
EU AI Actの遵守期限は2026年8月2日です。本記事では、EU AI ActがハイリスクAIシステムに求める要件と、LangSmithおよびLangChain OSSが各要件をどのように満たすかを説明します。
EU AI Act(欧州連合AI法)は、AIシステムに関する世界初の包括的な規制です。その遵守期限は2026年8月2日です。金融、医療、人事、製造、重要インフラなどでハイリスクAIシステムを構築・展開している場合、猶予はありません。違反した場合、最大1500万ユーロまたは全世界年間売上高の3%(いずれか高い方)の罰金が科される可能性があります。この法律では、リスク管理システム、自動イベントログ、デプロイヤーへの透明性、人間による監視メカニズム、市販後監視、インシデント報告が求められます。多くのチームがポリシー策定を始めていますが、それを裏付ける運用インフラも必要です。
この法律は、信用スコアリング、医療機器、採用、生体認証、重要インフラ、法執行などで使用されるシステムをハイリスクAIシステムと定義しています。これらのカテゴリでエージェントを構築する場合、リスク管理システムの確立、エージェントの行動ログ、出力の透明性、人間による介入の維持、導入後の継続的な監視が要件となります。これらの要件は、推論、コンテキスト取得、ツール呼び出し、マルチステップ判断を行うすべてのAIシステム(エージェントを含む)を対象としています。
以下では、EU AI Actの要件と、LangSmithおよびLangChain OSSが各要件をどのように満たすかを説明します。
可観測性とトレーシング:完全な実行キャプチャ
規制当局はAIシステムが取った行動の記録を求めています。マルチステップ判断を行うエージェントの場合、入力、推論、ツール呼び出し、出力を含む完全なスレッドをトレースすることがベストプラクティスです。
法律の要件:
- 第9条:開発ライフサイクル全体にわたるリスク管理システム
- 第12条:システムの存続期間にわたる自動イベントログ、リスク特定、市販後監視、デプロイヤーによる運用監視をサポートする十分なログ
- 第13条:トレーサブルで解釈可能な意思決定
LangSmithはエージェント実行のすべてのステップに対して完全な可観測性と評価ツールを提供します:
- エンドツーエンドのトレーシングは、すべてのLLM呼び出し、ツール呼び出し、推論ステップを構造化メタデータ(入力、出力、タイムスタンプ、エージェントコンテキスト)とともにキャプチャします。
- LangSmith Studioは状態遷移やツール呼び出しを含む完全な実行グラフを可視化し、エージェントの意思決定プロセスをステップごとに検査できます。
- LangSmith Insights Agentはトレースデータを自動処理し、繰り返し発生するパターンを特定・クラスタリングして、手動レビューが必要だった障害モードや利用トレンドを表面化します。
- カスタムダッシュボードはリスクスコアを追跡し、メトリクスがしきい値を超えた場合にPagerDutyやWebhookを通じてアラートを発行します。
保持と保存:セルフホスト、BYOC、マネージドクラウドのデプロイオプションにより、ログの保存場所と保持期間を制御できます。EUのデータ所在地要件については、LangSmith EUがすべてのトレースデータを管轄区域内に保持します。セルフホストおよびBYOCオプションでは、スタック全体がお客様のKubernetesクラスターまたはクラウドリージョンで実行され、データが境界外に出ることはありません。
評価器:継続的な品質と安全性のスコアリング
EU AI Actは継続的な測定を要求し、本番トラフィックに対する評価が必要です。
第10条はデータガバナンスとバイアス検査、第13条はシステムがデプロイヤーに出力を解釈可能にする透明性、第15条は宣言された精度レベルと関連精度メトリクス、敵対的耐性、一般的な攻撃面への保護を求めています。
LangSmithのオンライン評価器は、お客様が定義した設定可能なサンプルの本番トレースを継続的にスコアリングし、各スコアを完全なトレースコンテキストとともに記録します。メトリクスがしきい値を超えると、PagerDutyやWebhookを通じてアラートが発行されます。
LangSmithは以下の分野で事前構築済みの評価器を提供します:
- 人種、性別、年齢、宗教、国籍、障害、性的指向などに基づくバイアスと公平性
- 個人またはグループに対する有害性
- センシティブな画像や露骨なコンテンツ
- ハルシネーションと回答の関連性
- PII漏洩
- プロンプトインジェクションと脱獄
- API漏洩とコードインジェクション(ツール呼び出しエージェント向け)
- 正確性、完全一致、計画順守、タスク完了(精度測定用)
- ツール選択と計画順守(エージェントの意思決定品質評価用)
すべての評価器はカスタマイズ可能で、特定のユースケース向けに新しいものを作成することもできます。
人間による監視:中断、レビュー、エスカレーション
人間による監視はActの中核原則の1つです。AIシステムによる重要な意思決定は、人間が異議を唱え、修正可能でなければなりません。実践的には、定義されたエスカレーションパス、構造化レビューワークフロー、介入が行われたという監査証跡を備えたアーキテクチャを構築する必要があります。
エージェントシステムの場合、これはさらに重要です。マルチステップ判断を行うエージェントは、人間が気付く前にエラーを蓄積する可能性があります。場合によっては、監視メカニズムを実行グラフ自体に組み込む必要があります。
第14条は、人間がシステムを理解し、介入し、オーバーライドし、中断できることを要求しています。
LangSmithが提供する機能:
- LangGraphの割り込みプリミティブにより、ヒューマン・イン・ザ・ループ(HITL)がエージェントグラフの第一級機能になります。任意のノードで実行を一時停止し、状態を検査・変更し、再開できます。
- LangSmith Deploymentはその下にある耐久性のあるランタイムを提供します:自動チェックポイント、正確に1回の実行、一時停止した実行の正確なポイントからの再開を保証します。
- アノテーションキューは本番トレースを人間のレビューアにルーティングし、構造化フィードバックを収集します。
- Webhookは、評価器が定義されたしきい値を超えた場合や割り込みイベントが発生した場合に、適切な担当者にPagerDutyなどを通じて通知します。
はじめに
8月2日は目前です。ハイリスクAIシステムを運用するチームのために、LangSmithがActの技術的要件を満たす方法を以下にまとめます。
可観測性とトレーシングが基盤です。すべてのツール呼び出し、検索ステップ、推論ノードを完全にトレースすることで、監査証跡と評価の基盤が得られます。
本番トラフィックに対する評価(バイアス、ハルシネーション、有害性、正確性、敵対的入力のスコアリング)は、Actの市販後監視要件に対応します。
ヒューマン・イン・ザ・ループはアーキテクチャ上の要件です。Actは人間がシステムに介入、オーバーライド、中断できることを要求します。LangGraphの割り込みプリミティブとLangSmithのアノテーションキューにより、そのメカニズムが監査可能になります。
EUのデータ所在地要件を満たすには、デプロイ方法も重要です。LangSmithのEU SaaS、BYOC、完全セルフホストオプションは、本番環境でのエージェントワークロード向けに設計されています。
これらは、チームが本番でエージェントをうまく実行するためにすでに実践しているプラクティスと同じものです。