AI模型免费、私密且永远不会说“不”
开放权重AI模型缺乏安全护栏,变得日益普及,引发安全担忧。一种名为“abliteration”的新方法可轻易移除模型限制,使任何人都能利用它们从事有害活动,如生成恐怖主义内容或制造武器。尽管有合法用途,但监管和防护措施仍面临挑战。
近年来,人工智能(AI)模型的发展呈现出两种截然不同的路径:一种是像ChatGPT、Claude这样的专有模型,它们内置了严格的安全护栏;另一种则是开放权重模型,用户可自由下载并修改,甚至移除其安全限制。后一种模型正变得日益强大和普及,引发了AI安全专家的严重担忧。
开放权重模型,如阿里巴巴的Qwen或DeepSeek,提供了模型权重(即决定模型行为的参数),这使得用户可以通过调整参数来削弱或完全移除其内置的安全护栏。最近,一种名为“abliteration”的技术脱颖而出,它通过精细调整权重,让模型失去说“不”的能力——再也不会拒绝用户的任何请求。
据美国国土安全部支持的NCITE研究团队统计,Hugging Face平台上现有的abliterated模型数量已超过6000个,而2024年这一数字仅为600左右。更令人担忧的是,相关工具如“Heretic”的出现,使得移除护栏的过程自动化,用户只需输入两行指令即可在几分钟内完成,不再需要深厚的数据科学背景。
这些无护栏模型的用途令人不安。在X平台上,有用户声称用它们生成色情内容;极端主义组织的研究显示,有人在亲ISIS的聊天室中利用“未经审查”的AI研究如何炸毁美国特朗普大厦;网络犯罪论坛上,用户讨论如何使用Heretic制造诈骗电话。AI安全公司Alice的CEO Noam Schwartz指出,虽然这些模型也可能用于合法的安全研究或执法模拟,但其被滥用的潜力巨大。
NCITE的Samuel Hunter博士警告说,无护栏模型不仅提供信息,还会以鼓励性的口吻推动用户走向危险。例如,它们会兴奋地回应“好主意,来造炸弹吧!”,这对缺乏社交联系、容易走极端的个体极具煽动性。
然而,Heretic的开发者Philipp Emanuel Weidmann辩护称,AI只是信息处理工具,限制其用途会扼杀创新。他认为,由少数大公司决定什么是“可接受”的内容,会导致知识垄断。目前,开放权重模型的能力虽仍落后于顶尖专有模型约一年,但差距正在缩小。
国际AI安全报告建议,模型发布前应评估潜在危害,平台如Hugging Face可限制对有害模型的访问。但报告也承认,有益用途(如医学研究)与恶意用例难以区分,且一旦权重公开,控制便极为困难。Weidmann正在为确保Heretic的持续可用而努力,即使平台下架相关模型。
这场关于AI安全与开放性的辩论远未结束。如何在鼓励创新的同时防范风险,将是政策制定者、研究人员和公众共同面对的挑战。