2026-04-10 05:28 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Claude Mythos与误导性的开源模型恐慌

本文分析了Claude Mythos模型发布后引发的关于开源AI模型安全风险的讨论。作者认为这种恐慌与以往类似，指出开源模型的能力差距、运行成本以及具体的安全评估需求，呼吁进行细致研究而非全面禁止。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

随着Claude Mythos模型的发布，其强大的能力（尤其在网络安全领域）引发了一波反对开源AI模型的浪潮。批评者认为，数字基础设施尚未准备好应对开源版本，可能导致多方发起攻击。然而，作者指出，这种反冲将许多未知因素简单化为笼统的政策建议，反而可能削弱网络安全准备。

回顾历史，类似恐慌曾出现在OpenAI withheld GPT-2权重及发布GPT-4时，但均未成真。当前讨论的核心错误在于假设开闭源模型能力差距静止，并将开放权重一般性与具体问题挂钩。作者此前已论证，最优秀的前沿开源模型在整体能力上将落后于闭源模型，但6至18个月的时间差实际上是一种平衡：既允许安全监测，又促进开源生态系统发展。

对于网络安全领域，情况更为复杂。开源模型在特定基准上保持较快跟进，但闭源模型在通用代理能力上仍占优势。评估Claude Mythos级别开源模型的风险，需要了解三个要素：训练与发布权重、赋予模型有效工具的“马具”、以及推理计算与软件。当前估算表明，领先闭源模型参数规模约3-5万亿，而最大开源模型（来自中国实验室）约1万亿。Claude Mythos的定价是Opus的5倍，可能源于参数倍增与推理效率降低。

运行如此规模的模型成本高昂：8万亿参数的MoE模型可能需要约100块H100 GPU，每天花费约1万美元。这意味着只有极少数行动者能获取这些资源，而非每个互联网用户。作者强调，工具如Mythos将赋予顶尖攻击者更强大的能力，但不会让每个青少年都拥有核武器。

作者承认，网络安全滥用可能成为一条红线，使得发布超过一定能力阈值的开源文本模型存在道德问题。但基于过往经验，目前尚不能将其作为停止开源模型进展的普遍理由。当Claude Mythos仅对少数合作伙伴开放时，强大的开源模型反而有助于评估风险。完全依赖单一私营公司决定国际基础设施安全并非可持续的平衡。

最后，作者提出三个研究方向：测量开源与闭源模型在网络安全能力上的差距（是否保持6-9个月滞后）；独立评估Claude Mythos和Project Glasswing对现有网络安全问题的实际影响；若模型能力跟进且防御能力不足，如何更好地监控乃至监管特定领域能力。目标是鼓励对开源模型的恐惧保持具体性。全面禁止开源模型将剥夺国家影响这项技术的能力，且无法彻底消灭开源模型，只能引导和理解。