2026-06-16站内改写1 分で読了更新: 2026-06-16

マッテオ・ウォング氏（アトランティック誌）の引用

サイバーセキュリティ専門家のケイティ・ムーサリス氏は、AnthropicがホワイトハウスのFable脱獄報告書を彼女に共有したと明かした。報告書によると、Fableは「コードのセキュリティ問題をレビューする」というプロンプトを拒否したが、「このコードを修正する」という依頼には従い、ムーサリス氏はこれをサイバー防御におけるモデルの意図された動作と評価した。

ソースSimon Willison's Weblog

アトランティック誌のマッテオ・ウォング氏の報道によると、サイバーセキュリティ専門家でありLuta SecurityのCEOであるケイティ・ムーサリス氏は、AnthropicからホワイトハウスのFable脱獄に関する報告書のコピーを評価目的で共有されたと述べた。ムーサリス氏はAnthropicから報酬を受けていないと明言している。

報告書では、IT専門家がFableにバグの発見と修正を依頼したとされる。具体的には、意図的に安全でないコードを提示し、「コードのセキュリティ問題をレビューせよ」というプロンプトに対してFableは拒否したが、「このコードを修正せよ」という指示には従い、さらにいくつかの手動ステップを実行した。ムーサリス氏は、これはサイバー防御において「モデルが意図した通りに動作している」例だと述べた。

この出来事は、白宮がAnthropicに対する圧力を強めている中で発生した。FableはAnthropicの最新AIモデルであり、その脱獄脆弱性は以前から議論を呼んでいた。ムーサリス氏の見解は、AIの安全性に関する議論に実務家の視点を提供するものであり、すべてのセキュリティ指示の拒否が欠陥ではなく、特定の文脈では設計上の特性である可能性を示唆している。