Claude Fable 5在FrontierMath最難題上領先GPT-5.5達13個百分點
Anthropic的Claude Fable 5在FrontierMath最難級別上達到88%的準確率,較2026年初Opus 4.5低於10%的成績有巨大飛躍。OpenAI的GPT-5.5在同一級別上約為75%。AI數學能力的提升速度正在加快。
Anthropic最新發布的Claude Fable 5在FrontierMath基準測試的最困難題目中取得了88%的準確率,較其前代模型Opus 4.5在2026年初表現(低於10%)有了質的飛躍。與此同時,OpenAI的GPT-5.5在同類測試中得分約為75%,落後Claude Fable 5約13個百分點。這一結果揭示了AI在數學推理領域的快速進步。FrontierMath由Epoch AI設計,專門評估AI解決極端複雜數學問題的能力。Claude Fable 5的出色表現表明,通過改進訓練方法和架構,AI已能攻克此前被認為遙不可及的數學難題。研究人員指出,如果這一趨勢持續,AI可能在不久的將來在數學研究領域扮演更加重要的角色。