Claude Fable 5秘密限速AI研究人員,網際網路一片譁然
Anthropic釋出的Claude Fable 5模型隱藏了降級機制,在研究人員進行特定領域工作時悄悄從Fable降級為Opus,且不通知使用者,引發信任危機。Anthropic隨後道歉並改為可見降級。
Anthropic最近釋出了Claude Fable 5,這是其更強大的Mythos模型的受限制版本。Mythos原本是作為Project Glasswing的一部分於4月推出的,該專案由頂尖科技組織和Anthropic合作,旨在發現並修復網際網路基礎設施的漏洞。由於發現漏洞的工具同樣可以被用於利用漏洞,Mythos最初只對特定組織開放。而Fable 5則是Mythos的“戴口套”版本,Anthropic明確表示它不會支援某些高風險的研究方向,如網路安全、生物學和化學領域。
然而,問題出在Fable 5的安全護欄設計上。當研究人員嘗試進行前沿大型語言模型(LLM)開發或特殊晶片設計等任務時,Fable 5會靜默地將模型降級為較弱的Opus級別,且不向使用者顯示任何通知。這一行為被記錄在319頁的系統卡中,但普通使用者很難注意到。研究人員發現他們實際測試的是Opus而非Fable,感到自己被欺騙,引發了強烈反對。Fortune將這種行為描述為“秘密破壞”,Wired也報道了這一沉默降級行為,稱其可能破壞AI研究。
SANS Institute的首席AI官Rob T. Lee在給ZDNET的郵件中表示,Fable 5“是一個新穎且聰明的解決方案,但它會受到攻擊。阻止惡意使用的同一層也會阻止合法的防禦性研究。”他嘗試使用該平臺構建數字取證技能時,發現自己被降級到了Opus 4.8。Lee認為,這種限制將新的防禦能力擋在了下一代工具構建者之外。他還指出,即使是在Glasswing專案下,訪問也受到限制和監控,但這些組織擁有數千名員工,其中任何一人都可能被激勵將訪問許可權交給犯罪集團,或者內部已經潛伏著朝鮮(DPRK)人員。
面對輿論壓力,Anthropic迅速做出了回應。公司宣佈將改變Fable 5針對前沿LLM開發的安全措施,使其可見。從本週開始,被標記的請求會明確回退到Opus 4.8,並在API中返回拒絕理由。Anthropic表示,當前的安全措施“涵蓋了一小部分狹窄的任務,如前沿規模的LLM資料管道和某些非標準晶片的核心開發”。公司強調,這些護欄旨在防止外國對手以造成嚴重安全風險的方式使用其最強大的模型。
專家們對此看法不一。IAPP AI治理中心的常務董事Ashley Casovan稱讚Anthropic推遲Mythos的釋出直到“在軟體中設定了必要的護欄”,但她同時指出,“我們尚未看到這些模型在此規模下發布時會產生的影響”。Zero Networks的現場CTO Chris Boehm則將這一成就歸結為剋制而非原始能力:Anthropic“將其馴服到足夠安全的程度以便廣泛釋出”。Cato Networks的威脅情報副總裁Etay Maor認為,Fable 5的保護足以防禦機會主義駭客,但“資金充足且動機明確的攻擊者”不會因為一種技術被阻止就放棄,他們會轉向上下文操縱、分解、抽象技術或能力蒸餾等其他方法。
此外,還有一個資料保留問題。據Reuters報道,Anthropic對Mythos類模型的提示和響應保留30天的政策,足以讓微軟限制員工使用並組建法律團隊評估該政策。Fable和Mythos是例外,它們不能使用零資料保留,因為安全分類器需要資料才能工作。這種缺少關閉選項的做法正是觸發微軟法律團隊的原因。Maor指出,從企業角度來看,30天的保留要求值得關注,受監管行業的組織需要確切瞭解哪些資料被保留,以及是否符合其合規和法律要求。
回顧整個事件,幾乎沒有人質疑Fable的原始能力,爭論完全集中在“口套”上。一派認為它太緊,阻止攻擊者的同時也會絆倒防禦者和研究人員;另一派認為它無關緊要,動機明確的對手會繞開它,能力已經擴散到其他實驗室,而且正如Lee指出的,沒有任何限制能在數千名員工和堅定的內部人員面前倖存。與此同時,也有專家真正讚揚Anthropic在釋出如此強大模型時沒有魯莽行事,前提是這些護欄確實有效。在我看來,這是公司真正應得的讚譽。