AI News HubLIVE
站内改写3 分で読了

Fable 5とMythos 5は停止中:「ボールはAnthropicのコートにある」

先週金曜の夜、Anthropicは新フラッグシップモデルFable 5とMythos 5を突然無効化した。米国政府がFable 5に対する特定の脱獄方法を認識し、輸出管理命令を出したためだ。Anthropicは軽微な脆弱性と主張するが、ホワイトハウスのAI責任者David Sacks氏やAmazonの関与により事態は複雑化し、AI安全規制の前例となっている。

ソースThe New Stack AI著者: Frederic Lardinois

先週金曜の夜、Anthropicは新たなフラッグシップモデルであるFable 5とMythos 5を突然無効化しました。米国政府がFable 5に対する特定のジェイルブレイク(脱獄)方法を把握し、輸出管理命令を発動したためです。この命令は米国内の外国人を含む全ての外国人に適用されるため、Anthropicは全ユーザーに対してこれらのモデルを無効化せざるを得ませんでした。

現時点では、このジェイルブレイクの詳細は明らかにされていません。Anthropicは、政府が示したのは「すべて比較的単純に見える」「軽微な脆弱性」であり、他の公開モデルの能力を超えるものではないと主張しています。AnthropicがFable 5とMythos 5を発表した際、Fable 5は英国AI安全研究所や他の外部テスターによる広範なレッドチーミングセキュリティ演習を受けたと述べていました。Anthropicの内部テストでは、モデルが約5%の敵対的サイバータスクを完了することが示されていました。

Fable 5のモデルカードには、「公開されたユニバーサルジェイルブレイクが発見された場合、既知のすべての攻撃に対して堅牢であるように防御を迅速に更新する」と明記されています。しかし、現在の情報によれば、今回の問題はユニバーサルジェイルブレイクではなく、非常に特定の問題に適用されるものです。土曜日の朝の時点で、Anthropicはこれが「誤解である」とする以前の声明を更新していません。

しかし、2026年という時代背景から、話はさらに複雑になります。大統領科学技術諮問委員会の共同委員長であり、ホワイトハウスの元AIおよび暗号資産責任者であるDavid Sacks氏は土曜日、米国政府の見解をツイートしました。Sacks氏は、「Anthropicと米国政府の両方にとって非常に信頼できるパートナー」がジェイルブレイクを報告し、政権はAnthropicのCEO Dario Amodei氏にガードレールを改善して修正するかモデルを停止するよう求めたと述べています。「Darioは拒否した」とSacks氏は書いています。

独立系メディアのWall Street JournalとThe Informationの報道によれば、AmazonのCEO Andy Jassy氏がAmazonの研究者が発見したジェイルブレイクを、Wall Street Journalによれば「スコット・ベセント財務長官を含む米国当局者」に報告したとのことです。それらの報告によれば、Amazonの研究者はFable 5(Mythos 5のセキュリティガードレール付きバージョン)がサイバー攻撃を支援する方法を見つけました。AnthropicはFable 5のリリース時に、ユーザーがサイバー攻撃を開始したり生物兵器を作成したりするのを防ぐガードレールを設置したと述べていました。実際、多くのユーザーはモデルが無害な質問に回答することを拒否するとすぐに不満を述べました。システムが潜在的に安全でないプロンプトを検出すると、Claudeは以前のフラッグシップモデルであるOpus 4.8に静かに切り替えることもありました。

このジェイルブレイクがAmazonによって報告されたことから、研究者たちはAmazon Bedrock上でFable 5をテストした可能性が高いです。Amazonは、そのプラットフォームにはAnthropicを直接利用する場合と同じ安全メカニズムが備わっていると述べています。Sacks氏は、Anthropicが「ジェイルブレイクは深刻ではない」と言ってモデルを停止しない立場を擁護したと主張し、それはAnthropicを自ら作った窮地に追い込む修辞的な動きだと述べています。「それは信頼できるパートナーと米国政府の見解ではなく、そのような軽視する言葉はAI安全企業としてのAnthropicのブランドに一貫していない」と彼は書いています。「サイバー兵器の運用を可能にするジェイルブレイクを『深刻ではない』と定義できるとは理解しがたい。」

この話が報じられて以来、多くの評論家が指摘しているように、Mythos 5が公開するには危険すぎると主張したのはAnthropic自身であり、AI安全を真剣に受け止めるフロンティアラボとしてブランドを築いてきたのもAnthropicです。今やSacks氏はこれを逆手に取り、「過去において、Anthropicは常に安全が最優先であり、真剣に受け止めるべきだと述べてきた。今回の場合、Anthropicは安全よりも消費者モデルの提供を優先した」と書いています。

最も明白な解決策は、Anthropicがこの特定のジェイルブレイクを不可能にする新しいガードレールを設置することですが、非決定論的なモデルの性質上、他のジェイルブレイクがすぐに見つかる可能性もあります。しかし、おそらく比較的早く修正が行われ、輸出管理が解除され、モデルが再び利用可能になるでしょう。

とはいえ、これは米国政府がAI安全をどのように扱うかについて新たな前例を設定し、他の米国拠点のフロンティアラボはこの動きを非常に注意深く見守っているはずです。AIの進歩は、これまでこれらのラボ間の絶え間ないやり取りであり、定期的に互いに打ち負かしてきました。Fable 5/Mythos 5がAIモデル開発の頂点である可能性は低いです。

これがOpenAIやGoogleの次世代モデルにとって何を意味するかはまだわかりません。米国政府は、新モデルのリリース前に自主的な安全テストを提案しており、今回の事態はこのアイデアを再び前面に押し出すでしょう。Anthropicは、誰よりもAI規制を提唱してきた企業であることは注目に値します。

Sacks氏はツイートで、政権はAnthropicの技術能力を評価しており、この問題は深刻ではあるが簡単に解決されるべきだと述べ、「ボールはAnthropicのコートにある」としています。