AI News HubLIVE
站内改写3 分钟阅读

我测试了Claude Fable 5:Anthropic的最新一代AI能否兑现承诺?

本文测试了Anthropic发布的Claude Fable 5模型,该模型源自备受限制的Mythos Preview,旨在为更广泛的用户群体提供高级AI能力。文章介绍了Fable 5与Mythos 5的关键特性、基准性能、访问方式,并通过两个实际任务(从截图重建Netflix界面和将手绘仪表盘转化为现代应用)评估了其实用性。结果表明,Fable 5在理解视觉输入、生成生产级代码和处理复杂多步骤任务方面表现出色。Anthropic通过Fable 5和Mythos 5的区别部署,展示了在开放前沿AI能力与限制高风险应用之间的平衡策略。

来源Analytics Vidhya作者: Riya Bansal

Anthropic公司今年早些时候推出的Claude Mythos Preview AI模型曾引发全球关注,如今该模型已演变为两款新产品:Claude Fable 5和Claude Mythos 5。这些模型源自高度受限的Mythos Preview,将Anthropic最先进的AI能力带给更广泛的受众。Anthropic声称Fable 5在多个基准测试中创下了新的性能标准。本文详细探讨了这些Mythos类模型的功能、差异及访问方式。

什么是Claude Fable 5?

据Anthropic介绍,Fable 5在软件工程、知识工作、视觉、科学研究和长时间运行任务方面均优于之前的Claude模型。更值得注意的是,Anthropic声称Fable 5的优势随着任务复杂度和推理时间的增加而增长。这意味着Fable 5专为涉及多步骤、大量信息和扩展上下文的工作流程而设计,例如代码库迁移、财务分析、复杂文档审查、科学研究、截图到应用生成等。与仅优化短交互不同,Fable 5旨在维持长时间、高要求工作流程中的性能和连贯性。

Claude Fable 5和Mythos 5的关键特性

Claude Fable 5和Claude Mythos 5的最大升级在于处理更长、更复杂任务的能力。Anthropic表示,这些模型在编码、知识工作、视觉、记忆和科学研究方面表现强劲。测试中,Fable 5成功处理了大型编码项目、分析了财务文档、解读了图表,并凭截图重建了应用程序。一个关键区别在于自主性:模型能够在长时间工作流程中保持专注,更有效地保持上下文,并在较少指导的情况下解决多步骤问题。Mythos 5将这些能力扩展到了网络安全、药物发现、分子生物学和基因组学研究等领域的可信用户。

关键能力包括:

  • 高级编码:支持复杂软件工程和长期开发任务。
  • 更强的知识工作:擅长文档分析、财务推理和问题解决。
  • 改进的视觉理解:能理解截图、图表、科学图形和UI布局。
  • 长上下文记忆:在大型输入和扩展工作流程中保持上下文。
  • 科学研究支持:在可信访问环境中协助生物学、基因组学和药物发现。
  • 内置安全措施:对网络安全、生物学、化学和模型蒸馏等敏感领域提供额外保护。

基准性能

Anthropic的基准测试结果显示,Claude Fable 5和Mythos 5在多个实际AI应用领域领先,包括智能编码、知识工作、推理、工具使用、网络安全、生物学和健康。总体而言,这些模型在需要持续推理、广泛上下文和有效工具使用的复杂多步骤任务上表现最强。

访问方式

Claude Fable 5的访问方式简单多样:

  • Claude API:通过模型字符串claude-fable-5立即访问。也可用于基于消费的企业计划。
  • Claude应用程序:Pro、Max、Team和基于座位的企业计划用户在2026年6月22日前免费使用。访问分阶段推出。
  • 云平台:AWS、Google Cloud和Microsoft Foundry上可用,同时支持Claude Code和Claude平台。
  • 定价:每百万输入令牌10美元,每百万输出令牌50美元。提示缓存可为输入令牌提供90%折扣。

注意:Fable 5包含网络安全和生物学方面的安全措施。被标记的查询会路由到Opus 4.8,不会产生Fable费用,对用户几乎透明。

实际测试

基准测试固然有用,但开发者更关心模型能否加速实际开发。我通过两个任务测试了Fable 5的视觉输入理解、生产级代码生成和从现有设计工作的能力。

任务1:从截图重建Netflix界面

目标:评估Fable 5的视觉理解和前端能力。

输入:一张Netflix“新内容与流行”页面的截图,包含复杂导航栏、水平滚动内容轮播、内容卡片上的排名标签、多个内容区块、深色主题样式、徽章和覆盖层。

提示:将此截图重建为可运行的HTML/CSS页面,要求像素级准确,无框架,仅用干净的HTML和CSS,并实现桌面和移动端的响应式。

结果:Fable 5出色地识别了所有重要的UI组件,并创建了与Netflix网站相似的实际功能网页。它正确识别了网页的三个主要部分:固定导航区、水平布局的多个垂直卡片。特别令人印象深刻的是,它很好地识别了重复模式,为每个电影卡片使用了相同的结构并保持了一致的样式。

任务2:将手绘仪表盘草图转化为现代分析应用

目标:模拟实际产品工作流程,将粗略草图转化为精美应用。

输入:手绘仪表盘线框图,包含布局指令、图表、KPI卡片、表格、导航元素和仪表盘小部件。

提示:将此手绘仪表盘转化为现代SaaS分析应用程序,使用React、Tailwind CSS和响应式设计原则,创建精美的图表、现代卡片布局、微妙动画、适当间距和专业排版,同时保留草图结构。

结果:Fable 5理解意图而非复制像素。它生成了连贯的布局,包含侧边栏导航、KPI分析卡片、数据可视化区域、管理控制、表格和客户智能组件。模型智能地填补了缺失的颜色、排版、间距和交互性。虽然某些设计选择偏向额外样式,可能需要为生产环境进行微调,但应用程序功能完整且视觉一致。

结论

这次发布最值得注意的方面不仅是性能或新能力,而是访问管理的方式。Anthropic没有将其最强大的模型向所有人开放,而是在广泛可用的AI和受限的前沿AI之间划清了界限。Fable 5将大部分Mythos类智能带给开发者、企业和Claude用户,而Mythos 5仍限于敏感领域的可信合作伙伴和研究人员。这种方法预示着未来高级AI部署方式的转变:不仅基于能力,还基于风险和负责任访问。对用户而言,Fable 5提供了更强的编码、推理、视觉和研究支持。对Anthropic而言,Mythos 5测试了在不将最危险能力暴露给公众的情况下,能否安全扩展前沿AI。