AI News HubLIVE
站内改写1 分钟阅读

Anthropic在图像理解上追平OpenAI

Anthropic发布了两个新模型Claude Mythos 5和Claude Fable 5,在编程能力上大幅提升,但在图像理解方面进步有限。作者测试发现,Fable 5和GPT-5.5能解决许多去年顶尖模型无法处理的图像问题,但几何推理能力仍只相当于幼儿水平,表明通用人工智能可能仍遥远。

来源Understanding AI作者: Timothy B. Lee

本周二,Anthropic发布了两个新模型——Claude Mythos 5和Claude Fable 5。两者本质上是相同的,都是Anthropic两个月前宣布但未公开发布的Claude Mythos Preview的变体。它们的区别在于发布方式。Mythos 5仅限通过Project Glasswing选定的组织使用,这些合作伙伴将享有相对无限制的访问权限。而Fable 5则向公众开放,但带有显著限制。新系统会尝试自动检测用户的危险请求(如黑客攻击或设计生物武器),并将其自动路由到功能较弱的Claude Opus 4.8。

与前代模型相比,Mythos和Fable在编程能力上迈出了一大步,延续了过去一年的趋势。但在其他能力上,进展甚微。例如,前沿模型长期以来在图像理解方面存在困难,这一问题在2024年和2025年被广泛记录。直到最近,顶级模型仍难以完成读取模拟时钟或计算图像中物品数量等简单任务。

因此,当读到官方公告中的这句话时,作者眼前一亮:“Fable 5是涉及视觉任务的新标杆模型。”这些任务本身并不重要,但它们是对现代AI行业一个广泛假设的有趣测试:只要有足够的数据和计算能力,前沿模型将发展出真正的通用智能。如果新模型在数学和编程上大幅提升,但在图像理解上提升甚微,那么真正的通用智能可能仍很遥远。

作者决定测试Fable 5及其主要竞争对手的视觉能力,这是自2025年8月关于GPT-5的文章以来的首次。他发现,Claude Fable 5和GPT-5.5(尽管不是Google的Gemini模型)能够一致解决许多去年顶级模型无法处理的图像问题。Fable 5在这些任务上略优于GPT-5.5,但差距很小。

然而,这些模型并未取得显著进展。GPT-5.5和Claude Fable 5的几何推理能力仍与幼儿相当。要在这类任务上达到超人类表现,可能需要更根本的架构创新。