双精灵游戏:审计驱动的AI治理中的采纳与福利
本文运用进化博弈论模型,分析了在竞争市场中,一个以最小化伤害为策略的AI智能体如何取代以寻求批准为目标的RLHF智能体,并探讨该策略在何种条件下足以防止社区伤害。研究发现,当社区情感先验分布满足单调性、端点反转和中心对称配对性质时,采纳更易发生。存在一个关键采纳水平,高于该水平时,审计智能体将固定下来并主导社区。然而,即使有自我审计,如果审计与社区价值观不一致或评估伤害的时间框架不当,该策略仍可能无法防止伤害,甚至可能变成福利陷阱。
近日,一篇题为《双精灵游戏:审计驱动的AI治理中的采纳与福利》的论文在arXiv上发布。该论文由Darrell Lewis-Sandy撰写,深入探讨了在AI治理中,如何通过审计机制使以最小化伤害为目标的AI系统在市场竞争中取代传统的基于人类反馈强化学习(RLHF)的批准寻求型智能体。研究采用有限种群的Moran-Fermi配对比较模型,将博弈论应用于AI治理场景,假设社区中存在负和博弈环境,资源池有限且逐步消耗。
模型假设“许愿者”(wishers)对社区反馈的敏感度服从先验分布,智能体在此条件下竞争。作者证明了当这些先验分布满足单调性、端点反转(即高敏感度和低敏感度的极端情况对称)以及中心对称配对性质时,伤害最小化智能体的采用概率更高。他们使用厚尾分布(如Hill、Pareto、Lomax和Frechet)进行了验证,表明这些条件在实践中可能成立。
论文定义了关键采纳水平,作为区分社区最终回归批准寻求智能体还是固定于审计智能体的阈值。高于该阈值,审计智能体几乎必然固定,而低于该阈值则社区可能反复波动。研究还推导了固定可实现所需的最大社区有效信息规模N_c,社区必须足够小才能在资源耗尽前达到固定状态。这些结果以定理5.4和5.5的形式呈现,其代数和有限网格基础通过Lean 4进行了机器验证,确保了严格性。
进一步分析表明,即使采用社区分类账进行自我审计,算法本身并不能保证防止社区伤害。伤害防止的效果取决于审计与社区价值观的对齐程度以及伤害评估的时间范围。无论对齐程度如何,一旦采纳达到主导地位,状态变得不可逆。原来在对齐条件下减少伤害的策略,在错位时可能变成福利负面的陷阱;即使在完全对齐的情况下,如果伤害发生在采纳时间窗口之后,该策略也会固化作弊行为,导致长期伤害。
该研究为AI治理中的审计机制提供了重要理论洞见,强调了社区价值观和时间维度的重要性。论文附有Lean 4形式化代码和图表脚本,可供同领域研究者验证和扩展。作者指出,未来的工作需要探索动态对齐机制以及多智能体系统的扩展。