Claude Mythos与误导性的开源模型恐慌
本文分析了Claude Mythos模型发布后引发的关于开源AI模型安全风险的讨论。作者认为这种恐慌与以往类似,指出开源模型的能力差距、运行成本以及具体的安全评估需求,呼吁进行细致研究而非全面禁止。
随着Claude Mythos模型的发布,其强大的能力(尤其在网络安全领域)引发了一波反对开源AI模型的浪潮。批评者认为,数字基础设施尚未准备好应对开源版本,可能导致多方发起攻击。然而,作者指出,这种反冲将许多未知因素简单化为笼统的政策建议,反而可能削弱网络安全准备。
回顾历史,类似恐慌曾出现在OpenAI withheld GPT-2权重及发布GPT-4时,但均未成真。当前讨论的核心错误在于假设开闭源模型能力差距静止,并将开放权重一般性与具体问题挂钩。作者此前已论证,最优秀的前沿开源模型在整体能力上将落后于闭源模型,但6至18个月的时间差实际上是一种平衡:既允许安全监测,又促进开源生态系统发展。
对于网络安全领域,情况更为复杂。开源模型在特定基准上保持较快跟进,但闭源模型在通用代理能力上仍占优势。评估Claude Mythos级别开源模型的风险,需要了解三个要素:训练与发布权重、赋予模型有效工具的“马具”、以及推理计算与软件。当前估算表明,领先闭源模型参数规模约3-5万亿,而最大开源模型(来自中国实验室)约1万亿。Claude Mythos的定价是Opus的5倍,可能源于参数倍增与推理效率降低。
运行如此规模的模型成本高昂:8万亿参数的MoE模型可能需要约100块H100 GPU,每天花费约1万美元。这意味着只有极少数行动者能获取这些资源,而非每个互联网用户。作者强调,工具如Mythos将赋予顶尖攻击者更强大的能力,但不会让每个青少年都拥有核武器。
作者承认,网络安全滥用可能成为一条红线,使得发布超过一定能力阈值的开源文本模型存在道德问题。但基于过往经验,目前尚不能将其作为停止开源模型进展的普遍理由。当Claude Mythos仅对少数合作伙伴开放时,强大的开源模型反而有助于评估风险。完全依赖单一私营公司决定国际基础设施安全并非可持续的平衡。
最后,作者提出三个研究方向:测量开源与闭源模型在网络安全能力上的差距(是否保持6-9个月滞后);独立评估Claude Mythos和Project Glasswing对现有网络安全问题的实际影响;若模型能力跟进且防御能力不足,如何更好地监控乃至监管特定领域能力。目标是鼓励对开源模型的恐惧保持具体性。全面禁止开源模型将剥夺国家影响这项技术的能力,且无法彻底消灭开源模型,只能引导和理解。