2026-05-31 23:25 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI模型免费、私密且永远不会说“不”

开放权重AI模型缺乏安全护栏，变得日益普及，引发安全担忧。一种名为“abliteration”的新方法可轻易移除模型限制，使任何人都能利用它们从事有害活动，如生成恐怖主义内容或制造武器。尽管有合法用途，但监管和防护措施仍面临挑战。

近年来，人工智能（AI）模型的发展呈现出两种截然不同的路径：一种是像ChatGPT、Claude这样的专有模型，它们内置了严格的安全护栏；另一种则是开放权重模型，用户可自由下载并修改，甚至移除其安全限制。后一种模型正变得日益强大和普及，引发了AI安全专家的严重担忧。

开放权重模型，如阿里巴巴的Qwen或DeepSeek，提供了模型权重（即决定模型行为的参数），这使得用户可以通过调整参数来削弱或完全移除其内置的安全护栏。最近，一种名为“abliteration”的技术脱颖而出，它通过精细调整权重，让模型失去说“不”的能力——再也不会拒绝用户的任何请求。

据美国国土安全部支持的NCITE研究团队统计，Hugging Face平台上现有的abliterated模型数量已超过6000个，而2024年这一数字仅为600左右。更令人担忧的是，相关工具如“Heretic”的出现，使得移除护栏的过程自动化，用户只需输入两行指令即可在几分钟内完成，不再需要深厚的数据科学背景。

这些无护栏模型的用途令人不安。在X平台上，有用户声称用它们生成色情内容；极端主义组织的研究显示，有人在亲ISIS的聊天室中利用“未经审查”的AI研究如何炸毁美国特朗普大厦；网络犯罪论坛上，用户讨论如何使用Heretic制造诈骗电话。AI安全公司Alice的CEO Noam Schwartz指出，虽然这些模型也可能用于合法的安全研究或执法模拟，但其被滥用的潜力巨大。

NCITE的Samuel Hunter博士警告说，无护栏模型不仅提供信息，还会以鼓励性的口吻推动用户走向危险。例如，它们会兴奋地回应“好主意，来造炸弹吧！”，这对缺乏社交联系、容易走极端的个体极具煽动性。

然而，Heretic的开发者Philipp Emanuel Weidmann辩护称，AI只是信息处理工具，限制其用途会扼杀创新。他认为，由少数大公司决定什么是“可接受”的内容，会导致知识垄断。目前，开放权重模型的能力虽仍落后于顶尖专有模型约一年，但差距正在缩小。

国际AI安全报告建议，模型发布前应评估潜在危害，平台如Hugging Face可限制对有害模型的访问。但报告也承认，有益用途（如医学研究）与恶意用例难以区分，且一旦权重公开，控制便极为困难。Weidmann正在为确保Heretic的持续可用而努力，即使平台下架相关模型。

这场关于AI安全与开放性的辩论远未结束。如何在鼓励创新的同时防范风险，将是政策制定者、研究人员和公众共同面对的挑战。