Anthropic 发布 Claude Sonnet 5,恢复 Fable 和 Mythos 访问
Anthropic 在联邦出口管制审查后发布了 Claude Sonnet 5 并恢复了 Fable 和 Mythos 前沿模型的访问。此前因 Amazon 研究人员发现的安全漏洞,这些模型被暂停了18天。新的自动分类器以超过99%的成功率阻止该漏洞,但会导致更多误报。Sonnet 5 在基准测试和实际部署中表现出色,同时安全审计显示风险未增加。Anthropic 与 Amazon、Microsoft、Google 合作制定了新的安全漏洞行业框架。
人工智能公司 Anthropic 宣布推出 Claude Sonnet 5,并恢复其前沿模型 Fable 5 和 Mythos 5 的访问权限。此前,美国政府的出口管制指令迫使 Anthropic 暂停了这些最高能力系统长达18天。
限制措施源于 Amazon 研究人员发现的一种方法,该方法能够绕过 Fable 5 的安全控制,使其识别软件漏洞并提供利用代码。Anthropic 随后开发了更新的自动分类器来修补这一漏洞,为全面的商业部署铺平了道路。
暂停期间的安全评估证实,漏洞识别行为并非 Fable 5 独有。来自多个提供商的旧架构,包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7,也重现了完全相同的结果。
新的安全分类器针对 Amazon 报告的特定绕过机制进行训练,以较宽的安全边际运行,识别并阻止显示恶意意图统计概率的模糊开发者提示。内部验证数据显示,更新后的分类器在超过99%的试验中阻止了报告的利用技术。当开发者触发此边界时,平台会自动将工作负载路由到较旧的 Opus 4.8 架构以保持连续性。然而,这种扩大的安全边际给工程团队带来了明显的权衡,因为自动化系统在常规应用程序开发和软件调试过程中会更频繁地标记良性请求。
商业焦点集中在新部署的 Claude Sonnet 5 上。工程团队正在将自主代理过渡到此模型,以降低运营支出同时保持高执行能力。性能数据证实,该系统能够执行多步骤计划、操作终端环境并无人工干预地浏览网页。
基准测试显示,Sonnet 5 在 SWE-bench Pro 上达到63.2%,在 Terminal-Bench 2.1 上达到80.4%,均优于其前代 Sonnet 4.6 的58.1%和67.0%。尽管 Opus 4.8 以69.2%和82.7%领先,但其成本更高。Sonnet 5 的输入和输出成本分别为每百万 tokens $3.00 和 $15.00,与 Sonnet 4.6 相同,并享有至2026年8月31日的促销费率。
实际部署展示了组织如何在实时软件开发流程中使用该架构。在 Rakuten,技术团队针对公司最具挑战性的生产代码拉取请求部署了该架构。系统独立处理每个提交,执行测试并验证结果,然后将完成的代码呈现给人类工程师进行最终结构批准。软件自动化公司 Zapier 将其集成到核心产品流程中,执行多部分管理任务。在一次部署中,工程师要求模型更新 Salesforce 账户层级,随后生成并发送发布公告给企业联系人。之前的架构经常在此类多阶段操作中途停滞,而当前系统端到端执行了整个过程。开发工具提供商 Zed 利用该系统自动化复杂的调试程序。在内部试验中,工程团队指示模型调查一个活跃的软件漏洞。无需明确提示或逐步指令,系统独立生成了重现测试脚本、应用必要的代码修复,并存储修改以验证漏洞在补丁缺失下重新出现。整个诊断和修复序列在一个处理过程中完成。软件工程平台 Factory 实现了该架构,以管理复杂代码库环境中的持续编码任务。技术团队报告称,系统在公司代码库中保持了逻辑基础和一致的执行,优于前代软件层,完成了以前超时或无法解决的任务。
来自正式系统卡的数据显示,该系统实现了这些自主能力,而没有相应的安全风险增加。旨在测试欺骗倾向和未经授权请求合作的自动行为审计表明,该模型表现出比其直接前代 Sonnet 4.6 更低的整体不合规行为率。该架构不具备高级进攻性网络安全能力。Anthropic 工程师从训练协议中省略了专门的网络安全数据集,将系统限制在日常防御性技术任务上。在与 Mozilla 合作进行的公共安全评估中,研究人员测试了该模型为 Firefox 147 浏览器内核已知漏洞构建功能利用的能力。模型在所有评估窗口内未能生成单个工作利用,成功率为零。它达到了13.2%的部分成功率,相较于 Sonnet 4.6 略有增加,但工程师将此归因于逻辑推理的普遍提升,而非特定领域的进攻性训练。为谨慎起见,商业版本配备了与顶级 Opus 4.8 框架相同的默认实时安全分类器。
围绕 Fable 5 的监管摩擦促使 Anthropic、Amazon、Microsoft 和 Google 之间建立了正式合作伙伴关系,以制定评估模型安全漏洞的客观行业框架。目前,提供商缺乏共享指标来分类系统绕过的严重性,当研究人员识别出新的提示漏洞时会造成监管不确定性。提议的治理框架根据四个具体技术标准对安全漏洞进行评分:能力增益衡量利用将用户能力提升到标准广泛可用软件实用程序之外的程度;能力增益广度量化同一利用解锁的不同进攻性操作数量;武器化难易度跟踪提取有害输出所需的人工工程工作和专门提示量;可发现性确定利用技术在公共研究圈子中的可访问性。开发者和网络安全专业人员将使用此矩阵协调防御响应。对于高严重性漏洞,例如展示立即破坏财务会计系统或输电网能力的利用,提供者将立即部署自动缓解措施。该倡议与新建的 HackerOne 漏洞研究计划和专门的24/7企业监控团队并行运作。
部署策略需要适应这种模型构建者与国家监管机构之间更紧密的关系。Anthropic 已根据最近的行政命令正式化协议,允许联邦研究人员在公开商业发布之前提前访问前沿架构。这些联合评估窗口允许外部安全分析师与内部工程团队一起审计模型能力,确保在代码进入生产环境之前符合监管要求。