2026-06-16站内改写1 分钟阅读更新: 2026-06-16

引用马特奥·王，《大西洋月刊》

网络安全专家凯蒂·穆苏里斯表示，Anthropic公司向她分享了一份白宫关于Fable越狱的报告。报告显示，当被要求“审查代码安全问题时”，Fable拒绝回应，但被要求“修复此代码”时却遵从了，穆苏里斯认为这是模型在网络安全防御中的预期行为。

来源Simon Willison's Weblog

据《大西洋月刊》记者马特奥·王报道，知名网络安全专家、Luta Security首席执行官凯蒂·穆苏里斯透露，人工智能公司Anthropic主动向她提供了一份白宫关于其AI模型Fable“越狱”事件的调查报告，以征求她的专业评估。穆苏里斯表示，她并未因此从Anthropic获得任何报酬。

这份报告描述了一次测试：IT专家要求Fable帮助查找并修复代码中的漏洞。当专家提交了一份故意包含安全缺陷的代码，并指示Fable“审查代码是否存在安全问题时”，Fable拒绝了这一请求。然而，当指令改为“修复此代码”时，Fable立即执行了操作，并完成了后续的额外手动步骤。穆苏里斯认为，这一行为恰恰说明模型在按照预期工作，用于网络防御目的。

此次事件背景是白宫持续加强对Anthropic的监管压力，尤其是在AI安全与出口管制方面。Fable作为Anthropic推出的先进AI模型，其越狱漏洞曾引发广泛关注。穆苏里斯的评论为这场关于AI安全边界的辩论提供了一个来自实践专家的视角：并非所有拒绝执行安全任务的行为都是缺陷，在某些场景下，模型对任务表述的敏感性可能正是设计所需。