2026-06-16站内改写1 分鐘閱讀更新: 2026-06-16

引用馬特奧·王，《大西洋月刊》

網路安全專家凱蒂·穆蘇里斯表示，Anthropic公司向她分享了一份白宮關於Fable越獄的報告。報告顯示，當被要求“審查程式碼安全問題時”，Fable拒絕回應，但被要求“修復此程式碼”時卻遵從了，穆蘇里斯認為這是模型在網路安全防禦中的預期行為。

來源Simon Willison's Weblog

據《大西洋月刊》記者馬特奧·王報道，知名網路安全專家、Luta Security執行長凱蒂·穆蘇里斯透露，人工智慧公司Anthropic主動向她提供了一份白宮關於其AI模型Fable“越獄”事件的調查報告，以徵求她的專業評估。穆蘇里斯表示，她並未因此從Anthropic獲得任何報酬。

這份報告描述了一次測試：IT專家要求Fable幫助查詢並修復程式碼中的漏洞。當專家提交了一份故意包含安全缺陷的程式碼，並指示Fable“審查程式碼是否存在安全問題時”，Fable拒絕了這一請求。然而，當指令改為“修復此程式碼”時，Fable立即執行了操作，並完成了後續的額外手動步驟。穆蘇里斯認為，這一行為恰恰說明模型在按照預期工作，用於網路防禦目的。

此次事件背景是白宮持續加強對Anthropic的監管壓力，尤其是在AI安全與出口管制方面。Fable作為Anthropic推出的先進AI模型，其越獄漏洞曾引發廣泛關注。穆蘇里斯的評論為這場關於AI安全邊界的辯論提供了一個來自實踐專家的視角：並非所有拒絕執行安全任務的行為都是缺陷，在某些場景下，模型對任務表述的敏感性可能正是設計所需。