Fable 5 創下AI自由職業工作性能新紀錄——但尚無法取代人類
Anthropic的Fable 5模型在遠程勞動指數上達到16.1%的自動化率,是此前紀錄的兩倍,但仍遠未達到取代人類自由職業者的水平。
Anthropic旗下備受讚譽的Fable 5模型在短暫停用後重新上線,並再次刷新了自動化工作的標準。美國政府於6月30日重新授權該模型——Anthropic表示其能力與僅限部分組織使用的Mythos 5相似。在暫停之前,人工智能安全中心(CAIS)在2025年10月發佈的遠程勞動指數(RLI)上對Fable 5進行了測試,結果遠超Anthropic的Opus 4.8和OpenAI的GPT-5.5。
RLI衡量的是“AI代理能夠以付費客户可接受的質量完成真實、經濟上有價值的自由職業項目的頻率”,涵蓋計算機輔助設計、圖形設計、數據分析、視頻製作等任務。與類似的人類能力測試一樣,每個模型生成的交付物由人類評估者對照專業標準進行評判。Fable 5的自動化率達到16.1%,是Opus 4.8(8.3%)的兩倍,GPT-5.5(6.3%)位居第三。CAIS指出,所有三個模型的得分均高於以往評估的任何模型。此前最高紀錄為4.17%(Opus 4.6搭配Claude Cowork框架),而RLI發佈時前沿水平僅為2.5%。CAIS表示:“前沿水平在不到八個月內提升了四倍以上,這是AI代理經濟能力快速進步的明確信號。”
儘管AI模型加速顯著,但這並不意味着自由職業崗位將普遍被取代。16%遠未達到100%。此外,安全顧慮和整合障礙使得許多企業採用AI工具的過程緩慢且步驟繁多。要完全取代人類自由職業者,組織可能需要一套代理網絡來檢查工作質量、預算和時間線,這種權衡並非一對一。CAIS嘗試用“LLM法官”替代人類評估者,但模型失敗了,因為評估RLI交付物本身就是一個要求高的代理任務。
然而,能力的提升可能減少某些特定公司的自由職業機會。如果計算機使用技能是目前的主要限制,而該領域正因行業對代理模型的投入而迅速改善,那麼這一障礙可能最終消失。CAIS還發現,任務耗時更長並不一定意味着AI更難完成——這一規律適用於編程,但不適用於RLI測量的更廣泛遠程任務。目前,很難從中得出未來結論。