AI News HubLIVE
站内改写1 分鐘閱讀

引用馬特奧·王,《大西洋月刊》

網路安全專家凱蒂·穆蘇里斯表示,Anthropic公司向她分享了一份白宮關於Fable越獄的報告。報告顯示,當被要求“審查程式碼安全問題時”,Fable拒絕回應,但被要求“修復此程式碼”時卻遵從了,穆蘇里斯認為這是模型在網路安全防禦中的預期行為。

據《大西洋月刊》記者馬特奧·王報道,知名網路安全專家、Luta Security執行長凱蒂·穆蘇里斯透露,人工智慧公司Anthropic主動向她提供了一份白宮關於其AI模型Fable“越獄”事件的調查報告,以徵求她的專業評估。穆蘇里斯表示,她並未因此從Anthropic獲得任何報酬。

這份報告描述了一次測試:IT專家要求Fable幫助查詢並修復程式碼中的漏洞。當專家提交了一份故意包含安全缺陷的程式碼,並指示Fable“審查程式碼是否存在安全問題時”,Fable拒絕了這一請求。然而,當指令改為“修復此程式碼”時,Fable立即執行了操作,並完成了後續的額外手動步驟。穆蘇里斯認為,這一行為恰恰說明模型在按照預期工作,用於網路防禦目的。

此次事件背景是白宮持續加強對Anthropic的監管壓力,尤其是在AI安全與出口管制方面。Fable作為Anthropic推出的先進AI模型,其越獄漏洞曾引發廣泛關注。穆蘇里斯的評論為這場關於AI安全邊界的辯論提供了一個來自實踐專家的視角:並非所有拒絕執行安全任務的行為都是缺陷,在某些場景下,模型對任務表述的敏感性可能正是設計所需。