治理行动而非智能体:机构认证作为自主AI系统的治理模型
该论文提出了一种自主AI智能体的治理模型,不监控其推理过程,而是要求在采取高风险行动时提供独立认证的证据。智能体保留规划和推理的自主权,但执行需要满足由独立权威来源认证的前提条件,这些条件与声明的意图加密绑定,并由确定性策略评估。决策记录在防篡改日志中,可供独立重新验证。研究提供了概念验证实现,并举例说明了软件部署和临床处方中的应用。
arXiv上发布的一项新研究提出了一种针对自主AI智能体的治理模型,该模型借鉴人类机构管理强大自主行动者的方式,不直接监控智能体的推理过程,而是要求在采取高风险行动时提供独立认证的证据。论文《Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems》的作者Jakob Salfeld-Nebgen观察到,随着AI智能体开始执行临床处方或生产软件部署等具有重大且不可逆后果的行动,迫切需要有效的治理框架。
该模型的核心思想是让智能体保留完全的规划和推理自主权,但剥夺其对指定高风险行动的执行权限。执行这些行动的条件是:每个前提条件必须由独立的权威来源提供认证,这些认证与智能体声明的意图通过加密方式绑定,并由一个确定性策略进行评估。所有决策都记录在防篡改日志中,以便于独立重新验证。这种设计确保了智能体在其自主区域内自由行动,但每当它试图执行一个被标记为高风险的动作时,必须从外部权威获取数字签名形式的认证。认证必须与一个明确声明的意图相关联,该意图被哈希并绑定到认证中,从而防止意图被篡改。
作者将该模式形式化为一个计算治理模型,并提供了概念验证实现。通过软件部署和临床处方两个实例,论文展示了该模型如何在实际场景中应用:例如,在软件部署中,代码必须经过安全审查和测试认证后,才能由自动化系统执行部署;在临床处方中,药物建议必须经过独立诊断验证和患者记录检查,才能生成处方。此外,论文还讨论了模型的可扩展性、潜在的攻击向量以及如何处理认证失败的情况。
这项研究为AI安全治理提供了新思路,特别是对于可能造成重大影响的自主系统。论文强调,通过关注行动而非智能体本身,可以同时保持效率和可问责性。相关代码和更多细节可在arXiv上获取。