Claude Fable 5在FrontierMath最难题上领先GPT-5.5达13个百分点
Anthropic的Claude Fable 5在FrontierMath最难级别上达到88%的准确率,较2026年初Opus 4.5低于10%的成绩有巨大飞跃。OpenAI的GPT-5.5在同一级别上约为75%。AI数学能力的提升速度正在加快。
Anthropic最新发布的Claude Fable 5在FrontierMath基准测试的最困难题目中取得了88%的准确率,较其前代模型Opus 4.5在2026年初表现(低于10%)有了质的飞跃。与此同时,OpenAI的GPT-5.5在同类测试中得分约为75%,落后Claude Fable 5约13个百分点。这一结果揭示了AI在数学推理领域的快速进步。FrontierMath由Epoch AI设计,专门评估AI解决极端复杂数学问题的能力。Claude Fable 5的出色表现表明,通过改进训练方法和架构,AI已能攻克此前被认为遥不可及的数学难题。研究人员指出,如果这一趋势持续,AI可能在不久的将来在数学研究领域扮演更加重要的角色。