安全地向客户釋放前沿模型
AWS致力於安全地提供前沿AI模型,與Anthropic合作通過Project Glasswing改進防護欄,確保新模型能力不被濫用,同時為防禦者提供優勢。
AWS一直致力於成為運行任何工作負載最安全的地方,自成立以來就在安全方面進行了深度投資。其AI服務如Amazon Bedrock也基於這一基礎構建,提供世界級的性能、安全性和隱私保護。去年推出的Bedrock Mantle進一步增強了模型權重的行業領先隱私保護。客户希望儘快獲得最新模型,而Bedrock滿足了這一需求,同時提供了AWS用户期望的企業級功能。我們很高興Anthropic的Claude Fable 5模型將於明天再次在Bedrock上向客户提供,並配備了更強的防護欄以防止濫用。
在釋放模型時,我們不僅考慮對客户的責任,還考慮對整個互聯網和社會的責任。最新一代的前沿模型,如Anthropic的Claude Mythos,擁有強大的新能力,特別是在網絡安全領域。通過Project Glasswing,我們親身體驗了這些能力,並渴望將Mythos級別的模型交到防禦者手中。但我們必須確保在利用這些模型加強系統安全的同時,不給對手提供顯著先進的可見性和能力,而不給公司、政府和學術機構保護其資產的機會。實現這種平衡是廣泛模型釋放的關鍵挑戰,這也是我們與Anthropic及其他行業夥伴在Project Glasswing中密切合作以完善防護欄的原因。我們都認為,防止對手獲得深度漏洞研究能力是這些防護欄的最重要目標。
這也是AI令人興奮的時代,新能力幾乎每天湧現。我們相信,在安全、隱私保護的環境中向所有客户提供這些先進模型的能力,對於確保他們獲得諸多好處而不產生安全風險至關重要。隨着我們對當前防護欄效果的瞭解和新模型的發佈,繼續開發新的防護欄也很重要。我們將繼續與合作伙伴迭代,提供更多價值,並響應行業變化。
同樣重要的是,確保這些模型發佈後出現的問題得到適當處理。Anthropic發佈了一篇博文《重新部署Fable 5》,闡述了他們對這類新模型能力的思考,以及應對報告問題的承諾和服務等級協議。我們感謝Anthropic在首次為網絡能力模型構建問題嚴重性和響應結構方面的透明度和合作,並期待隨着學習和完善,在全行業進行持續對話。
我們的AI紅隊與Anthropic合作進一步改進了Fable的保護措施,我們相信其最新的防護欄產生了一個非常強大的模型,同時進一步降低了被對手濫用的風險。它在大多數領域提供了更強大的推理能力,而沒有給對手帶來顯著的新安全能力。當防護欄被觸發時,它會自動回退到Opus 4.8,這是一個已經公開可用的世界級模型。
我們感謝Anthropic的合作伙伴關係和對防禦者的承諾,並期待與他們以及行業其他夥伴繼續合作,以安全、可靠的方式提供前沿模型。