Fable 5 创下AI自由职业工作性能新纪录——但尚无法取代人类
Anthropic的Fable 5模型在远程劳动指数上达到16.1%的自动化率,是此前纪录的两倍,但仍远未达到取代人类自由职业者的水平。
Anthropic旗下备受赞誉的Fable 5模型在短暂停用后重新上线,并再次刷新了自动化工作的标准。美国政府于6月30日重新授权该模型——Anthropic表示其能力与仅限部分组织使用的Mythos 5相似。在暂停之前,人工智能安全中心(CAIS)在2025年10月发布的远程劳动指数(RLI)上对Fable 5进行了测试,结果远超Anthropic的Opus 4.8和OpenAI的GPT-5.5。
RLI衡量的是“AI代理能够以付费客户可接受的质量完成真实、经济上有价值的自由职业项目的频率”,涵盖计算机辅助设计、图形设计、数据分析、视频制作等任务。与类似的人类能力测试一样,每个模型生成的交付物由人类评估者对照专业标准进行评判。Fable 5的自动化率达到16.1%,是Opus 4.8(8.3%)的两倍,GPT-5.5(6.3%)位居第三。CAIS指出,所有三个模型的得分均高于以往评估的任何模型。此前最高纪录为4.17%(Opus 4.6搭配Claude Cowork框架),而RLI发布时前沿水平仅为2.5%。CAIS表示:“前沿水平在不到八个月内提升了四倍以上,这是AI代理经济能力快速进步的明确信号。”
尽管AI模型加速显著,但这并不意味着自由职业岗位将普遍被取代。16%远未达到100%。此外,安全顾虑和整合障碍使得许多企业采用AI工具的过程缓慢且步骤繁多。要完全取代人类自由职业者,组织可能需要一套代理网络来检查工作质量、预算和时间线,这种权衡并非一对一。CAIS尝试用“LLM法官”替代人类评估者,但模型失败了,因为评估RLI交付物本身就是一个要求高的代理任务。
然而,能力的提升可能减少某些特定公司的自由职业机会。如果计算机使用技能是目前的主要限制,而该领域正因行业对代理模型的投入而迅速改善,那么这一障碍可能最终消失。CAIS还发现,任务耗时更长并不一定意味着AI更难完成——这一规律适用于编程,但不适用于RLI测量的更广泛远程任务。目前,很难从中得出未来结论。