引用马特奥·王,《大西洋月刊》
网络安全专家凯蒂·穆苏里斯表示,Anthropic公司向她分享了一份白宫关于Fable越狱的报告。报告显示,当被要求“审查代码安全问题时”,Fable拒绝回应,但被要求“修复此代码”时却遵从了,穆苏里斯认为这是模型在网络安全防御中的预期行为。
据《大西洋月刊》记者马特奥·王报道,知名网络安全专家、Luta Security首席执行官凯蒂·穆苏里斯透露,人工智能公司Anthropic主动向她提供了一份白宫关于其AI模型Fable“越狱”事件的调查报告,以征求她的专业评估。穆苏里斯表示,她并未因此从Anthropic获得任何报酬。
这份报告描述了一次测试:IT专家要求Fable帮助查找并修复代码中的漏洞。当专家提交了一份故意包含安全缺陷的代码,并指示Fable“审查代码是否存在安全问题时”,Fable拒绝了这一请求。然而,当指令改为“修复此代码”时,Fable立即执行了操作,并完成了后续的额外手动步骤。穆苏里斯认为,这一行为恰恰说明模型在按照预期工作,用于网络防御目的。
此次事件背景是白宫持续加强对Anthropic的监管压力,尤其是在AI安全与出口管制方面。Fable作为Anthropic推出的先进AI模型,其越狱漏洞曾引发广泛关注。穆苏里斯的评论为这场关于AI安全边界的辩论提供了一个来自实践专家的视角:并非所有拒绝执行安全任务的行为都是缺陷,在某些场景下,模型对任务表述的敏感性可能正是设计所需。