Anthropic推出Claude Mythos/Fable 5,但你最好赶紧试试
Anthropic发布了其首个普遍可用的Mythos级模型Fable 5,该模型在大多数基准测试中表现出色,但存在使用限制和数据保留政策。
周二,Anthropic发布了Fable 5,这是其首个普遍可用的Mythos级模型。Fable 5实际上就是公司过去几周一直在谈论的高性能Mythos模型,但增加了防护措施,以确保其不能被用于构建恶意软件或生物武器等用途。
与此同时,公司还推出了Mythos 5,这是Mythos的更新版本,没有这些防护措施,但最初仅对Project Glasswing的成员开放。
与Mythos不同,你可以立即使用Fable 5。Anthropic表示,该模型现已通过API(以及Microsoft Foundry、Amazon Bedrock和AWS上的Claude Platform)提供,价格为每百万输入代币10美元,每百万输出代币50美元,是Anthropic当前Opus模型价格的两倍。
Anthropic称,Fable 5在概念推理、文档处理以及图表和表格解读方面表现更优。
目前,Fable 5也面向Claude Pro、Max、Team以及基于座位的企业订阅用户开放,但有一个条件:它在6月22日之后将不可用。从6月23日开始,使用Fable 5将需要消耗使用积分。
原因在于,与Anthropic目前所做的许多事情一样,是容量问题。Anthropic解释说:“在此之后——当足够的容量允许我们这样做时——我们计划将Fable 5恢复为订阅计划的标准部分。我们打算尽快做到这一点。”
你得到的是一款在几乎所有基准测试中表现优异——且通常以非常大的优势领先的模型。在SWE-Bench Pro上,Fable得分80%(而不带防护的Mythos 5得分为80.4%),远高于Anthropic自己的Opus 4.8(69.2%),以及OpenAI的GPT 5.5(58.6%)和Google的Gemini 3.1 Pro(54.2%)。
其他基准测试也类似,无论是聚焦于编码、工具使用、计算机使用还是知识工作。不过,基准测试只能说明部分问题,并不总能反映模型在实际使用中的表现。Anthropic认为,Fable 5和Mythos 5可以比其他模型更长时间地自主工作,并处理更复杂的任务。例如,Stripe让Fable 5在一天内对一个5000万行的Ruby代码库进行了现代化改造——该公司表示,这原本需要一个开发团队两个月的时间。
部分原因是,正如Anthropic所指出的,新模型可以在长时间运行的任务中“专注于数百万个代币”,并利用自己的笔记改进输出。GitHub的首席产品官Mario Rodriguez也表示,这种更长时间保持专注的能力使Fable 5能够承担更复杂的编程任务。
在知识工作方面,这种增强的记忆能力也发挥作用,Anthropic称Fable 5在概念推理、文档处理以及图表和表格解读方面更胜一筹。
安全防护显然是Fable 5的一个关键特性。一个风险是,如果Anthropic将模型调得过于保守,模型可能会拒绝太多答案。根据Anthropic的说法,原始Mythos模型过于危险而不能发布,该公司认为所有Mythos级模型“都需要强大的防护措施以防止滥用,并且覆盖范围需要广泛。防护措施本身必须能够抵御持续且复杂的绕过尝试。”
当模型检测到潜在滥用时,它不会直接回答这些问题。相反,当检测到与“网络安全、生物学和化学或蒸馏”相关的请求时,它将把任务交给Opus 4.8。
在我自己的测试中,Fable 5拒绝推理自己的模型卡,很可能是因为其中包含了许多模型本应避免的话题。Anthropic表示,到目前为止,这种情况仅发生在不到5%的Fable会话中,但早期访问模型的用户可能并不代表大多数Claude用户。
用户在使用Mythos级模型时无法选择退出数据保留。今后,使用这些模型意味着同意30天的数据保留——否则就不能使用。Anthropic表示不会用这些数据训练新模型,并且会记录所有人类访问。但该公司认为需要这些数据来帮助“防御复杂和新颖的攻击(包括新的越狱和跨多个请求的攻击),并帮助我们识别和减少误报。”然而,一些企业仍然不希望Anthropic存储他们的任何数据。
Fable 5显然是当前市场上最强大的模型。这基本上是所有人的预期,低于预期将是一个重大失望。因此,发布后的早期反应更多地集中在发布方式上,包括有限的免费使用窗口和数据保留政策。现在,关键问题是该模型能否在实际场景中达到预期效果,而这通常需要几天时间才能见分晓。