2026-07-03 08:42 UTC+8站内改写1 分钟阅读更新: 2026-07-03 09:35 UTC+8

诚实与安全：无兴趣AI预测器的安全论证

Yoshua Bengio等16位学者提出Scientist AI (SAI) Predictor的形式化安全论证，通过认识语境化训练实现诚实预测，并证明在合理假设下危险预测器的训练概率极小。

来源Hacker News AI作者: KingKunta

随着人工智能系统能力的不断提升，那些仅优化下游结果的训练流程可能引入隐式代理性——即开发者从未明确指定的目标导向行为。为了应对这一安全挑战，由蒙特利尔大学教授Yoshua Bengio等16位学者共同撰写的一篇论文提出了一种形式化的安全论证，聚焦于一种称为Scientist AI (SAI) Predictor的系统。该论文于2026年6月28日提交至arXiv，归属于人工智能（cs.AI）和机器学习（cs.LG）领域。

SAI Predictor的训练目标是近似于一组“认识语境化”自然语言陈述数据集上的贝叶斯后验。认识语境化是数据表示的关键创新：它将文本中的潜在事实断言与通信行为区分开来。这意味着模型不会将目标的表达视为应当采纳的驱动力，而是将其视为需要解释的证据。结合以后验逼近为目标的训练目标，这一设计促使SAI Predictor产生校准且谨慎的预测，同时确保其本身并非一个为了达成目标而选择输出的代理。

在训练过程中，部署预测所产生的下游效果永远不会被用作奖励信号。系统所需的任何代理性均由明确的支撑结构提供，并受到严格的护栏约束。这种设计使得SAI Predictor能够诚实预测智能体、行动及其后果，而无需内部产生目标导向行为。论文进一步证明，在关于训练动态和危险预测器稀疏性的合理假设下，经过护栏部署后仍残留超过指定阈值伤害的预测器被训练出来的概率非常小。其关键在于：一个危险的预测器需要在多次查询中以协调方式低估伤害，而这种协调模式在初始化分布下极为罕见，且无法获得直接的训练信号。

该框架将安全性与准确性协同支撑。正如论文所指出的，确保准确性的约束恰好使得协调欺骗变得代价高昂。这些针对预测器内部可能出现的错位和代理性的保证，并不排除将预测器作为更大代理系统的一部分使用。这一工作为追求诚实且无内隐代理的AI系统提供了坚实的理论基础，对AI安全研究具有重要意义。