LangSmith和LangChain OSS如何帮助您满足欧盟AI法案要求
欧盟AI法案合规截止日期为2026年8月2日。本文详细介绍了该法案对高风险AI系统的具体要求,以及LangSmith和LangChain OSS如何通过全链路追踪、自动化评估、人工监督等功能帮助您实现合规。
欧盟AI法案(EU AI Act)是全球第一部全面的人工智能监管法规,其合规截止日期为2026年8月2日。如果你正在欧盟开发或部署高风险AI系统——例如用于金融、医疗、人力资源、制造业或关键基础设施的系统——那么倒计时已经开始。不合规可能面临高达1500万欧元或全球年营业额3%的罚款(取较高者)。法案要求建立风险管理体系、自动事件日志记录、对部署者的透明度、人工监督机制、上市后监控以及事件报告机制。许多团队已经开始政策层面的工作,但还需要构建可操作的基础设施来支撑这些要求。
法案重点关注高风险AI系统,包括信用评分、医疗设备、招聘、生物识别、关键基础设施、执法等领域的系统。如果你在这些领域构建代理,必须满足以下要求:建立风险管理体系、记录代理行为、确保输出对部署者透明、保持人工干预能力,并在部署后持续监控行为。这些要求适用于所有AI系统,包括那些能够推理、检索上下文、调用工具并进行多步决策的代理。
本文分解了欧盟AI法案的具体要求,并说明了LangSmith和LangChain OSS产品如何帮助您满足每一项要求。
可观测性与追踪:完整执行记录
监管机构要求记录AI系统采取的所有行动。对于进行多步决策的代理,最佳实践是追踪完整的执行线程,包括输入、推理、工具调用和输出。
法案第9条要求在整个开发生命周期中建立持续的风险管理体系;第12条要求系统在其生命周期内进行自动事件日志记录,日志必须足以识别风险、支持上市后监控并使部署者能够进行运营监督;第13条要求决策可追溯、可解释。
LangSmith为代理执行的每一步提供完整的可观测性和评估工具:
- 端到端追踪捕获每一次LLM调用、工具调用和推理步骤,并附带结构化元数据(输入、输出、时间戳、代理上下文)。
- LangSmith Studio可视化完整的执行图,包括状态转换和工具调用,使您可以逐步检查代理的决策过程。
- LangSmith Insights Agent自动处理追踪数据,识别并聚类重复模式,发现故障模式和使用趋势。
- 自定义仪表板跟踪风险评分,并通过PagerDuty或webhook在指标超出阈值时触发警报。
在存储方面,自托管、BYOC和托管云部署选项让您控制日志的存储位置和保留时间。对于欧盟数据驻留要求,LangSmith EU将所有追踪数据保存在辖区内。自托管和BYOC选项让整个堆栈运行在您的Kubernetes集群或云区域中,数据永远不会离开您的边界。
评估器:持续质量与安全评分
欧盟AI法案要求对代理输出进行持续测量,并对生产流量进行评估。
第10条要求数据治理和偏见检查;第13条要求系统足够透明,使部署者能够解释输出并适当使用;第15条要求声明准确度水平、相关准确度指标、对抗性鲁棒性,并防范常见攻击面。
LangSmith的在线评估器持续对您定义的可配置生产追踪样本进行评分,每个分数都附有完整的追踪上下文,形成证据链。当指标超出阈值时,通过PagerDuty或webhook触发警报。
LangSmith提供以下领域的预构建评估器:
- 基于种族、性别、年龄、宗教、国籍、残疾和性取向等的偏见和公平性
- 针对个人或群体的毒性
- 敏感图像和露骨内容
- 幻觉和答案相关性
- PII泄露检测
- 提示注入和越狱检测
- API泄露和代码注入(针对工具调用代理)
- 正确性、精确匹配、计划遵循和任务完成(用于准确度测量)
- 工具选择和计划遵循(用于代理决策质量评分)
每个评估器都可定制,您还可以为特定用例创建新的评估器。
人工监督:中断、审查和升级
人工监督是法案的核心原则之一。AI系统做出的重大决策应保持可争议性和可纠正性。实践上,这需要在架构中构建监督机制,包括定义的升级路径、结构化审查工作流以及干预发生的审计证据。
对于代理系统,这尤为重要。一个进行多步决策的代理可能在人类有机会发现之前就累积错误。在某些情况下,监督机制需要嵌入执行图本身。
第14条要求人类能够理解、干预、覆盖和中断系统。
LangSmith提供的功能:
- LangGraph的中断原语使人工介入成为代理图的头等公民。您可以在任何节点暂停执行、检查状态、修改状态并恢复。
- LangSmith Deployment提供底层持久化运行时:自动检查点、恰好一次执行以及从精确点恢复暂停运行。
- 注释队列将生产追踪路由给人类审查员进行结构化反馈。
- 当评估器超出定义阈值或发生中断事件时,webhook触发警报。
如何开始
8月2日即将到来。对于运行高风险AI系统的团队,以下是LangSmith如何帮助您满足法案核心技术要求:
可观测性和追踪是基础。对所有工具调用、检索步骤和推理节点进行完整追踪,为您提供审计线索和运行评估的基础。
对生产流量进行评估,包括偏见、幻觉、毒性、准确性和对抗性输入的评分,满足法案的上市后监控要求。
人工介入是一个架构要求。法案要求人类能够干预、覆盖和中断系统。LangGraph的中断原语和LangSmith的注释队列使该机制可审计。
为满足欧盟数据驻留要求,部署方式也很重要。LangSmith的欧盟SaaS、BYOC和完全自托管选项专为生产中的代理工作负载设计。
这些实践与团队为在生产中良好运行代理而遵循的实践相同。