Fable 5 創下AI自由職業工作效能新紀錄——但尚無法取代人類
Anthropic的Fable 5模型在遠端勞動指數上達到16.1%的自動化率,是此前紀錄的兩倍,但仍遠未達到取代人類自由職業者的水平。
Anthropic旗下備受讚譽的Fable 5模型在短暫停用後重新上線,並再次重新整理了自動化工作的標準。美國政府於6月30日重新授權該模型——Anthropic表示其能力與僅限部分組織使用的Mythos 5相似。在暫停之前,人工智慧安全中心(CAIS)在2025年10月釋出的遠端勞動指數(RLI)上對Fable 5進行了測試,結果遠超Anthropic的Opus 4.8和OpenAI的GPT-5.5。
RLI衡量的是“AI代理能夠以付費客戶可接受的質量完成真實、經濟上有價值的自由職業專案的頻率”,涵蓋計算機輔助設計、圖形設計、資料分析、影片製作等任務。與類似的人類能力測試一樣,每個模型生成的交付物由人類評估者對照專業標準進行評判。Fable 5的自動化率達到16.1%,是Opus 4.8(8.3%)的兩倍,GPT-5.5(6.3%)位居第三。CAIS指出,所有三個模型的得分均高於以往評估的任何模型。此前最高紀錄為4.17%(Opus 4.6搭配Claude Cowork框架),而RLI釋出時前沿水平僅為2.5%。CAIS表示:“前沿水平在不到八個月內提升了四倍以上,這是AI代理經濟能力快速進步的明確訊號。”
儘管AI模型加速顯著,但這並不意味著自由職業崗位將普遍被取代。16%遠未達到100%。此外,安全顧慮和整合障礙使得許多企業採用AI工具的過程緩慢且步驟繁多。要完全取代人類自由職業者,組織可能需要一套代理網路來檢查工作質量、預算和時間線,這種權衡並非一對一。CAIS嘗試用“LLM法官”替代人類評估者,但模型失敗了,因為評估RLI交付物本身就是一個要求高的代理任務。
然而,能力的提升可能減少某些特定公司的自由職業機會。如果計算機使用技能是目前的主要限制,而該領域正因行業對代理模型的投入而迅速改善,那麼這一障礙可能最終消失。CAIS還發現,任務耗時更長並不一定意味著AI更難完成——這一規律適用於程式設計,但不適用於RLI測量的更廣泛遠端任務。目前,很難從中得出未來結論。