AI News HubLIVE
站內改寫3 分鐘閱讀

Anthropic 釋出 Claude Sonnet 5,恢復 Fable 和 Mythos 訪問

Anthropic 在聯邦出口管制審查後釋出了 Claude Sonnet 5 並恢復了 Fable 和 Mythos 前沿模型的訪問。此前因 Amazon 研究人員發現的安全漏洞,這些模型被暫停了18天。新的自動分類器以超過99%的成功率阻止該漏洞,但會導致更多誤報。Sonnet 5 在基準測試和實際部署中表現出色,同時安全審計顯示風險未增加。Anthropic 與 Amazon、Microsoft、Google 合作制定了新的安全漏洞行業框架。

來源Artificial Intelligence News作者: Ryan Daws

人工智慧公司 Anthropic 宣佈推出 Claude Sonnet 5,並恢復其前沿模型 Fable 5 和 Mythos 5 的訪問許可權。此前,美國政府的出口管制指令迫使 Anthropic 暫停了這些最高能力系統長達18天。

限制措施源於 Amazon 研究人員發現的一種方法,該方法能夠繞過 Fable 5 的安全控制,使其識別軟體漏洞並提供利用程式碼。Anthropic 隨後開發了更新的自動分類器來修補這一漏洞,為全面的商業部署鋪平了道路。

暫停期間的安全評估證實,漏洞識別行為並非 Fable 5 獨有。來自多個提供商的舊架構,包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7,也重現了完全相同的結果。

新的安全分類器針對 Amazon 報告的特定繞過機制進行訓練,以較寬的安全邊際執行,識別並阻止顯示惡意意圖統計機率的模糊開發者提示。內部驗證資料顯示,更新後的分類器在超過99%的試驗中阻止了報告的利用技術。當開發者觸發此邊界時,平臺會自動將工作負載路由到較舊的 Opus 4.8 架構以保持連續性。然而,這種擴大的安全邊際給工程團隊帶來了明顯的權衡,因為自動化系統在常規應用程式開發和軟體除錯過程中會更頻繁地標記良性請求。

商業焦點集中在新部署的 Claude Sonnet 5 上。工程團隊正在將自主代理過渡到此模型,以降低運營支出同時保持高執行能力。效能資料證實,該系統能夠執行多步驟計劃、操作終端環境並無人工干預地瀏覽網頁。

基準測試顯示,Sonnet 5 在 SWE-bench Pro 上達到63.2%,在 Terminal-Bench 2.1 上達到80.4%,均優於其前代 Sonnet 4.6 的58.1%和67.0%。儘管 Opus 4.8 以69.2%和82.7%領先,但其成本更高。Sonnet 5 的輸入和輸出成本分別為每百萬 tokens $3.00 和 $15.00,與 Sonnet 4.6 相同,並享有至2026年8月31日的促銷費率。

實際部署展示了組織如何在即時軟體開發流程中使用該架構。在 Rakuten,技術團隊針對公司最具挑戰性的生產程式碼拉取請求部署了該架構。系統獨立處理每個提交,執行測試並驗證結果,然後將完成的程式碼呈現給人類工程師進行最終結構批准。軟體自動化公司 Zapier 將其整合到核心產品流程中,執行多部分管理任務。在一次部署中,工程師要求模型更新 Salesforce 賬戶層級,隨後生成併傳送釋出公告給企業聯絡人。之前的架構經常在此類多階段操作中途停滯,而當前系統端到端執行了整個過程。開發工具提供商 Zed 利用該系統自動化複雜的除錯程式。在內部試驗中,工程團隊指示模型調查一個活躍的軟體漏洞。無需明確提示或逐步指令,系統獨立生成了重現測試指令碼、應用必要的程式碼修復,並儲存修改以驗證漏洞在補丁缺失下重新出現。整個診斷和修復序列在一個處理過程中完成。軟體工程平臺 Factory 實現了該架構,以管理複雜程式碼庫環境中的持續編碼任務。技術團隊報告稱,系統在公司程式碼庫中保持了邏輯基礎和一致的執行,優於前代軟體層,完成了以前超時或無法解決的任務。

來自正式系統卡的資料顯示,該系統實現了這些自主能力,而沒有相應的安全風險增加。旨在測試欺騙傾向和未經授權請求合作的自動行為審計表明,該模型表現出比其直接前代 Sonnet 4.6 更低的整體不合規行為率。該架構不具備高階進攻性網路安全能力。Anthropic 工程師從訓練協議中省略了專門的網路安全資料集,將系統限制在日常防禦性技術任務上。在與 Mozilla 合作進行的公共安全評估中,研究人員測試了該模型為 Firefox 147 瀏覽器核心已知漏洞構建功能利用的能力。模型在所有評估視窗內未能生成單個工作利用,成功率為零。它達到了13.2%的部分成功率,相較於 Sonnet 4.6 略有增加,但工程師將此歸因於邏輯推理的普遍提升,而非特定領域的進攻性訓練。為謹慎起見,商業版本配備了與頂級 Opus 4.8 框架相同的預設即時安全分類器。

圍繞 Fable 5 的監管摩擦促使 Anthropic、Amazon、Microsoft 和 Google 之間建立了正式合作伙伴關係,以制定評估模型安全漏洞的客觀行業框架。目前,提供商缺乏共享指標來分類系統繞過的嚴重性,當研究人員識別出新的提示漏洞時會造成監管不確定性。提議的治理框架根據四個具體技術標準對安全漏洞進行評分:能力增益衡量利用將使用者能力提升到標準廣泛可用軟體實用程式之外的程度;能力增益廣度量化同一利用解鎖的不同進攻性運算元量;武器化難易度跟蹤提取有害輸出所需的人工工程工作和專門提示量;可發現性確定利用技術在公共研究圈子中的可訪問性。開發者和網路安全專業人員將使用此矩陣協調防禦響應。對於高嚴重性漏洞,例如展示立即破壞財務會計系統或輸電網能力的利用,提供者將立即部署自動緩解措施。該倡議與新建的 HackerOne 漏洞研究計劃和專門的24/7企業監控團隊並行運作。

部署策略需要適應這種模型構建者與國家監管機構之間更緊密的關係。Anthropic 已根據最近的行政命令正式化協議,允許聯邦研究人員在公開商業釋出之前提前訪問前沿架構。這些聯合評估視窗允許外部安全分析師與內部工程團隊一起審計模型能力,確保在程式碼進入生產環境之前符合監管要求。