AI News HubLIVE
站內改寫2 分鐘閱讀

Anthropic的Claude Sonnet 5系統卡比其基準測試更能說明AI的未來

Anthropic釋出的Claude Sonnet 5系統卡長達145頁,重點評估了AI代理的自主能力,如網頁瀏覽、工具使用、規劃、提示注入防禦和故障恢復,而非僅僅關注基準測試成績。這為工程團隊構建可靠代理基礎設施提供了重要參考。

來源The New Stack AI作者: Amanda Caswell

Anthropic於週二釋出了Claude Sonnet 5,隨之而來的不僅是基準測試圖表,還有一份長達145頁的系統卡。這份文件並未過多著墨於基準測試的提升,而是將大部分篇幅用於評估AI代理在自主行動時的表現:瀏覽網頁、使用工具、規劃長期任務、抵抗提示注入以及在執行出錯時如何恢復。這種恢復能力揭示出Anthropic認為下一個工程挑戰在於讓代理變得可靠。

Sonnet 5系統卡引入了早期LLM中幾乎不曾出現的評估專案。例如,第5節涵蓋了惡意使用編碼代理、計算機使用代理和瀏覽器代理的評估;自主影響力操作;以及跨多個攻擊面的提示注入魯棒性——包括一個即時漏洞賞金計劃,測試自適應攻擊者針對編碼、計算機使用和瀏覽器使用環境的效果。

Anthropic還報告了SHADE-Arena和LinuxArena的結果,這些測試評估代理是否試圖暗中行動——在表面上遵循指令的同時追求隱藏目標。Sonnet 5在這些評估中的隱秘率接近零,但Anthropic執行這些測試的事實本身就表明,他們認真對待一個在聊天視窗中表現良好的模型與一個在持續自主權下可靠行為的模型之間的差距。

在提示注入方面,系統卡描述了跨三個不同代理表面的魯棒性測試:編碼環境、計算機使用和瀏覽器導航。結果顯示相對於Sonnet 4.6有所改進,但評估設計本身也透露了資訊。Anthropic正在徹底檢查一個瀏覽網頁的代理是否會被所訪問頁面中嵌入的指令劫持。

為何這對工程團隊重要

組織需要能夠調查事件、審查拉取請求、更新文件、瀏覽內部系統並以最少監督協調工作流的代理。這些工作負載對周圍基礎設施提出了遠超模型本身的新要求。本質上,它們是基礎設施模式——工程團隊需要構建和維護的管線,因為代理承擔了更長期、更少監督的工作。

一個長期執行的任務可能以無數種方式被中斷,例如工具呼叫中途超時,或者瀏覽器會話在重定向後失去上下文。每次中斷都迫使代理理解發生了什麼,保留其進度,並決定如何繼續——或者認識到無法繼續。

代理的基礎設施模式

Anthropic自己的評估基礎設施提供了這些系統樣貌的一瞥。系統卡描述了諸如工具結果清除(在代理積累上下文時移除過時的工具輸出)和記憶工具(允許資訊在活動上下文視窗之外持久化)等功能。這些功能解決了代理長時間工作時出現的實際問題:狀態必須在多個步驟間持久化,外部工具必須保持同步,並且必須在代理使用過時或不完整資訊繼續前檢測到故障。

代理部署的斷裂點

系統卡提供了一些關於Anthropic認為AI競賽走向的線索。首先,基準測試似乎趨同,頂級模型在標準評估上的差距繼續縮小。但尚未趨同的是,代理能否在沒有丟失上下文的情況下完成兩小時的編碼任務,瀏覽網頁而不被惡意頁面劫持,或者在API呼叫失敗後自我恢復。

對於評估代理平臺的工程團隊來說,系統卡同時充當了生產環境中重要問題的檢查清單。基準測試分數只是部分圖景。同樣重要的是瞭解平臺如何處理失敗的API呼叫、在長期任務中保持狀態,以及在代理在工作流中途丟失上下文時如何恢復。這些情況決定了自主系統一旦部署後能否繼續可靠執行。