Anthropic在圖像理解上追平OpenAI
Anthropic發佈了兩個新模型Claude Mythos 5和Claude Fable 5,在編程能力上大幅提升,但在圖像理解方面進步有限。作者測試發現,Fable 5和GPT-5.5能解決許多去年頂尖模型無法處理的圖像問題,但幾何推理能力仍只相當於幼兒水平,表明通用人工智能可能仍遙遠。
本週二,Anthropic發佈了兩個新模型——Claude Mythos 5和Claude Fable 5。兩者本質上是相同的,都是Anthropic兩個月前宣佈但未公開發布的Claude Mythos Preview的變體。它們的區別在於發佈方式。Mythos 5僅限通過Project Glasswing選定的組織使用,這些合作伙伴將享有相對無限制的訪問權限。而Fable 5則向公眾開放,但帶有顯著限制。新系統會嘗試自動檢測用户的危險請求(如黑客攻擊或設計生物武器),並將其自動路由到功能較弱的Claude Opus 4.8。
與前代模型相比,Mythos和Fable在編程能力上邁出了一大步,延續了過去一年的趨勢。但在其他能力上,進展甚微。例如,前沿模型長期以來在圖像理解方面存在困難,這一問題在2024年和2025年被廣泛記錄。直到最近,頂級模型仍難以完成讀取模擬時鐘或計算圖像中物品數量等簡單任務。
因此,當讀到官方公告中的這句話時,作者眼前一亮:“Fable 5是涉及視覺任務的新標杆模型。”這些任務本身並不重要,但它們是對現代AI行業一個廣泛假設的有趣測試:只要有足夠的數據和計算能力,前沿模型將發展出真正的通用智能。如果新模型在數學和編程上大幅提升,但在圖像理解上提升甚微,那麼真正的通用智能可能仍很遙遠。
作者決定測試Fable 5及其主要競爭對手的視覺能力,這是自2025年8月關於GPT-5的文章以來的首次。他發現,Claude Fable 5和GPT-5.5(儘管不是Google的Gemini模型)能夠一致解決許多去年頂級模型無法處理的圖像問題。Fable 5在這些任務上略優於GPT-5.5,但差距很小。
然而,這些模型並未取得顯著進展。GPT-5.5和Claude Fable 5的幾何推理能力仍與幼兒相當。要在這類任務上達到超人類表現,可能需要更根本的架構創新。