Claude Fable 5 初印象
Anthropic 发布了 Claude Fable 5 和 Mythos 5,Fable 5 在性能与 Mythos 5 相当的基础上增加了更严格的安全护栏,拥有 100 万 token 的上下文窗口和 12.8 万 token 的输出能力,定价为 Opus 4.8 的两倍。作者 Simon Willison 在 5.5 小时的测试中发现,该模型知识渊博、能力强大,在代码生成和复杂任务处理上表现出色,但也伴随着高昂的费用和较慢的速度。Fable 5 成功将 micropython-wasm 升级为完整 Python 沙箱,并为 Datasette Agent 和 LLM 库实现了工具调用的暂停-恢复机制。作者当天消耗了 110.42 美元的 token。
Anthropic 于 2026 年 6 月 9 日发布了其最新旗舰模型 Claude Fable 5 及其无安全限制版本 Claude Mythos 5。知名开发者 Simon Willison 在第一时间对 Fable 5 进行了约 5.5 小时的深度测试,并给出了“猛兽”般的评价。
Fable 5 与 Mythos 5 共享核心能力,但前者内置了更为严格的安全护栏,以防止模型被用于有害目的。这些护栏触发频率较高,因此 Claude API 新增了通知机制,甚至允许用户在请求被拒绝时自动回退到其他模型。两款模型均拥有 100 万 token 的上下文窗口和 12.8 万 token 的最大输出能力,知识截止日期为 2026 年 1 月。定价方面,Fable 5 是 Opus 4.8 系列的两倍:输入 token 每百万 10 美元,输出 token 每百万 50 美元,且长上下文使用不加价。
Willison 通过对比测试发现,Fable 5 在知识广度上远超 Opus 4.8。当他询问“列出所有 Simon Willison 的开源项目”时(故意拼错名),Opus 4.8 谨慎地列出了几个主要项目,而 Fable 5 不仅纠正了拼写错误,还给出了更全面、更精确的列表,涵盖从 Django 到最近的小工具,并注明了大致发布日期。Willison 表示,虽然曾经认为模型的知识储备并不重要,但 Fable 5 的表现暗示了其参数规模可能非常大,甚至可能是目前最大的模型之一。
在代码能力方面,Fable 5 展现出了惊人的实用性。Willison 要求它将他之前发布的 micropython-wasm 库(基于 WebAssembly 的 MicroPython 沙箱)升级为完整 Python 版本。Fable 5 迅速识别出可以使用 Brett Cannon 的 cpython-wasi-build 构建,尽管因环境限制无法直接下载,但在用户上传所需文件后,它经过数分钟的处理就成功生成了一个 13.9MB 的 Python WASM 轮子文件,用户可通过 uv 命令直接运行完整 Python 代码。
更令人印象深刻的是,Fable 5 在辅助开发 Datasette Agent 和 LLM 库时展现了强大的工程能力。Willison 原本计划为 Datasette Agent 添加工具调用中途暂停并请求用户批准的功能,Fable 5 不仅完成了这一需求,还主动识别并实现了 LLM 库中的四个相关改进,包括为工具调用提供唯一 ID、引入 PauseChain 异常以干净地暂停调用链、支持从历史记录中恢复挂起的工具调用等。这些改进最终构成了 LLM 0.32a3 版本,且绝大部分代码、测试和文档均由 Fable 5 生成。Willison 称赞其 API 设计、代码质量和文档水平令人印象深刻,数小时的工作量相当于数天的开发成果。
然而,强大的能力也有代价。Willison 使用 AgentsView 工具追踪了当天的 token 消耗,发现总共用掉了 110.42 美元的 token(全部来自其 100 美元/月的订阅计划)。其中绝大部分(89.9%)用于 Datasette Agent 项目。此外,Fable 5 的推理速度较慢,且生成质量与思考努力等级相关——在生成“骑自行车的鹈鹕”SVG 图像测试中,最高思考等级(max)输出 14,430 个 token,花费 72.175 美分,而中等思考等级反而比高等级消耗更多 token。
总体而言,Claude Fable 5 是一款兼具强大知识储备和出色工程能力的旗舰模型,在复杂编程和智能代理任务上表现卓越,但其高昂的成本和较慢的速度也值得关注。Anthropic 尚未公布模型参数规模,但所有迹象都表明这可能是有史以来最大的模型之一。