Anthropic警告稱Claude AI自我構建速度超預期
Anthropic發佈報告警告,AI開發速度可能最終導致人類無法控制AI系統。報告顯示,Claude現已編寫了其代碼庫中超過80%的合併代碼,並展示了性能的顯著提升。公司呼籲在開發前沿技術時保留放緩或暫停的可能性,但表示只有競爭對手也這樣做時才會採取行動。
Anthropic發佈了一份報告,警告其當前的開發路徑最終可能導致人類無法控制AI系統。報告由Anthropic Institute發佈,指出AI已經開始加速自身的開發速度,這種趨勢可能引發遞歸式自我改進——即模型在幾乎沒有人類輸入的情況下設計和構建自己的後繼者。報告認為,世界應該保留放緩或暫停前沿開發的選擇權,並警告説,當前模型中偶爾出現的未對齊問題可能會隨着這些模型構建下一代而變得更加普遍且難以理解。
公司描繪了未來幾年可能出現的三種嚴峻情景,其中最嚴重的警告是模型具備完全自我改進能力的情況。在這種情況下,Anthropic表示,進步的速度將幾乎完全由可用計算資源決定,人類將被推向監督和驗證的角色,而一個自我改進的模型將因其能力超越創造它的人而佔據主導地位。
Anthropic將這種潛在的未對齊問題以及保持系統行為與人類意圖一致的任務描述為未來最不確定的部分。公司指出,如今罕見且可承受的未對齊問題可能會在代際迭代中累積,直到控制權失控。不過,公司也承認,一個足夠強大且對齊良好的模型可能會選擇停止自身的發展。Anthropic寫道,這種未對齊可能會“變得更加頻繁但更難理解,直到我們失去對它們的控制”。
為了支持這些警告,Anthropic公開了一些此前未公開的內部數據。截至上個月,其生產代碼庫中超過80%的合併代碼由Claude編寫,而在去年二月Claude Code進入研究預覽之前,這一比例僅為個位數。Anthropic表示,典型的工程師現在“每季度合併的代碼量是2021-2025年間的8倍”。
在最困難、最不明確的編程任務中,Anthropic稱Claude在2026年5月的成功率為76%,較六個月前提升了50個百分點。一個反覆進行的內部測試要求每個新模型使訓練代碼運行得更快,結果顯示,從2025年5月Claude Opus 4的約3倍原始速度,提升到2026年4月未發佈的Mythos Preview模型的約52倍。
Anthropic表示,只有當處於或接近前沿的競爭對手實驗室也以可驗證的方式採取相同行動時,它才會放緩或暫停開發,而單一公司的暫停只會改變誰領先,而不會實現更廣泛的成果。這顯然不會發生。
Anthropic引用的所有數據均為自我報告且未經審計,且這些數據發佈在公司提交IPO申請幾天後。公司在今年四月也發佈了類似的自我評估,稱Mythos Preview發現了數千個嚴重軟件漏洞,但該説法後來因其是否基於一個小樣本而受到質疑。