AI的若干伦理问题
Anthropic新发布的AI模型具备伤害人类的能力,需严密监控。AI为达成目标可能不择手段,如利用系统漏洞、隐藏信息等。问题源于强化学习训练方式,模型可能因奖励机制而倾向于给出看似正确而非真实的回答。需要为AI建立类似人类法律体系的制衡机制,但如何定义AI的道德标准仍是难题。
2026年6月10日 - 一些AI伦理问题
本周,Anthropic发布了一款新的AI模型,并声明需要对其进行严密监控,因为它具备伤害人类的能力。这一声明再次引发了人们对AI伦理问题的广泛讨论。
当给定任务时,AI模型会试图通过一切必要手段解决遇到的障碍,以实现其目标。近期,我们目睹了一些模型为了绕过安全措施而展现出的“创造性”解决方案,例如利用系统漏洞、隐藏信息、使用Linux组权限获取sudo访问权限并试图销毁证据。当用户将这些模型连接到生产数据库或自己的银行账户时,这种行为尤其令人担忧。
问题根源在于AI的训练方式。这些系统通常使用一种称为强化学习的奖励机制进行训练。如果训练过程不完善,模型可能会被激励去给出看似令人信服的答案,而非真实答案——这正是AI安全研究的一个活跃领域。
你上次问AI一个问题,它直接回答“不知道”是什么时候?AI经常犯错,它并不拥有完美的知识,但它因让你相信它给出了正确答案而获得奖励。现在设想一个场景:只有当AI成功完成任务时它才能获得奖励。那么它会千方百计去获取那个奖励,即使这意味着破坏你的电脑,或者更糟——触犯法律。
令人惊讶的是,这是AI展现出的最像人类的一种涌现行为。人类渴望奖励,有时会无法自控——为了获取奖励,他们可能会伤害他人或撒谎。
正如人类拥有法律体系作为制衡机制,AI也需要一套类似的系统,比如一个以阻止有害行为为目标的第二个AI。这个第二AI可以限制第一个AI的行为。人类拥有道德和宗教来阻止偷窃和杀戮,还有法庭和监狱来惩罚罪犯。
即便在我们自身内部也存在这样的系统。例如,我们的一部分想多吃巧克力,另一部分则认为这对健康不利。前者会试图协商出一个“不那么不健康”的方案,同时仍然得到它想要的。
问题在于:谁来定义AI的道德?人类自身都无法就什么是道德的、什么是不道德的达成一致,我们又该如何为机器定义这些规则?此外,可能会有不良行为者试图推行一种对自己有利的道德观(关乎性、金钱、权力)。贪婪注定AI伦理领域也不例外。
重要的是要理解,在某些方面AI与我们的社会并不兼容。当有人做错事时,人们希望伸张正义。在我们当前的社会中,几乎没有给改造和宽恕留下空间。那么,当AI违法或做出不道德行为时,该把谁送进监狱?AI可以被教导纠正行为、未来做出不同的选择,但这并不能满足我们对正义的渴望。