AnthropicがFable 5を復活させる方法と、そのコストがかかる時期
米国政府が輸出規制を解除した後、Anthropicは7月1日にFable 5モデルを再リリースすると発表。しかし、ユーザーは使用制限と追加費用に注意が必要。本記事では、アクセス権、価格設定、安全性の改善、そして「脱獄」事件の詳細を説明する。
米国政府が火曜日にFable 5の輸出規制を解除したことを受け、Anthropicは水曜日(7月1日)に同モデルを復活させると発表しました。今回、同社はこのプロセスの詳細と、商務省がClaude Fable 5およびClaude Mythos 5に輸出規制を適用する原因となった「脱獄」――Anthropicが「バイパス」と呼ぶことを好む――について、さらに詳しい情報を明らかにしました。
7月1日、Fable 5はClaudeプラットフォーム、Claude.ai、Claude Code、Claude Coworkで、全世界のPro、Max、Team、Enterpriseプランユーザー向けに再び利用可能になります。しかし、悪いニュースもあります。7月7日までは、サブスクリプションプランのユーザーは週間利用限度の最大50%までFable 5を使用できます。その後は、AnthropicのAPIプランと同じレートで課金される使用クレジットを通じてのみ利用可能になります。
標準のEnterpriseユーザーの場合、Fable 5は7月7日までも通常の割り当てに含まれません。彼らのアクセスは即座に使用クレジットを通じて課金されます。ただし、プレミアムEnterpriseシートには7月7日までの短い猶予期間があり、それまではサブスクリプションプランを通じてFable 5にアクセスできます。
当初、Fable 5は6月9日から22日まで無料で提供される予定でした。
AWS、Google Cloud、Microsoft Foundryを通じてFable 5にアクセスしていた開発者も、まもなくアクセスが再開されます。
Fable 5を削除する前、Anthropicは入力トークン100万件あたり10ドル、出力トークン100万件あたり50ドルを請求していました。この価格設定は変わらないようです。
Anthropicの説明
今回のアップデートで、Anthropicはこれらすべての原因となった詳細もさらに公開しました。Anthropicは、Amazonの研究者が「Fable 5のセーフガードを回避する方法を発見した」ことを確認しました。それは、モデルに多数のソフトウェア脆弱性を特定させるようプロンプトするというものでした。あるケース(唯一のケースと思われます)では、モデルに脆弱性の悪用方法を実演させました。
Anthropicは、政府やAmazonを含むパートナーと協力して報告書を精査し、Claude Opus 4.5、GPT-5.5、Kimi K2.7などの他のモデルもFable 5の報告書に含まれる同じ脆弱性を発見でき、テストしたすべてのモデル(Claude Haiku 4.5のような基本的なモデルを含む)がこの脆弱性を悪用する方法を理解できたと述べています。
同社は、「報告された技術は、Mythosレベルの独自のサイバー能力を露呈するものではなかった」と強調し、それはFable 5のセーフガードが作動する境界線ぎりぎりだったとしています。
「新しい分類器により、Amazonの報告書に記載された特定の技術は99%以上のケースでブロックされます。」——Anthropic
Fable 5がオフラインになった後、Anthropicは政府と協力して改良された安全分類器(モデルに有害な出力を生成するよう要求されたときに検出するシステム)を訓練し、現在はこれらの種類の要求もブロックします。同社は基本的に、モデルがブロックする良性要求の数を増やしました。
Fable 5復活の代償:より大きな安全マージン
同じ動作を示した他のモデルにとってこれが何を意味するのか疑問に思う人もいるでしょうが、現時点ではこれはFable 5にのみ適用され、米国政府はそれで問題ないようです。
「新しい分類器により、Amazonの報告書に記載された特定の技術は99%以上のケースでブロックされます」とAnthropicは書き、モデルは依然として低リスクのサイバー防御機能すべてをブロックするわけではありませんが、有害なものの大部分をブロックするはずだと述べています。同社は、「安全性マージンを高めるために、安全分類器を既知の良性である可能性が高い要求セットでトリガーするよう意図的に設定した」と述べています。
Fable 5がローンチされたとき、ユーザーからは最も無害な要求でさえモデルがブロックするというフィードバックがすでにありました。したがって、これらの強化されたガードレールで今後どうなるかはまだわかりません。Anthropicはすでに発表の中でそのことを示唆しています。
「新しい分類器は、日常的なコーディングやデバッグタスク中に良性要求をより頻繁にフラグするという代償も伴います」と同社は書いています。「すべてのセーフガードと同様、真の悪用と正当な要求をより適切に区別し、誤検知を減らすために引き続き改良を続けます。」
これが、AnthropicがFableを復活させるために支払わなければならなかった代償のようです。
以前と同様に、Fable 5は問題のある要求をOpus 4.8(Anthropic自身がFable 5の動作を再現できると述べているモデル)にルーティングします。これを自由に解釈してください。ただし、米国政府には言わないでください。
「脱獄」とは何か?
すべては比較的マイナーな問題から始まったため、Anthropicはこの発表を利用して、攻撃者に提供される内容に基づいて脱獄をスコアリングする方法を提案しています。これには、脱獄が解放する能力の向上、その能力向上が機能する個別の攻撃的サイバーセキュリティタスクの数、脱獄の武器化の容易さ、および技術の発見と取得の容易さが含まれます。
同社は、これは進行中の作業であり、これらの基準をどのようにスコアリングし、互いに比較検討するかは不明であると認めています。
自社のモデルを監視するため、Anthropicは脱獄提出チャンネルを24時間365日監視するチームを立ち上げています。また、研究者が潜在的な脆弱性を提出できる新たなプログラムをHackerOneでも開始します。
ワシントンとの良好な関係
米国政府に関しては、Anthropicは国家サイバー局長室、科学技術政策室、財務省、商務省などの機関との協力を継続し、ホワイトハウスが「安全な人工知能の革新とセキュリティの促進」に関する大統領令の一部として確立した枠組みに焦点を当てると述べています。
「我々の希望は、この協力と提案した業界全体のコンセンサスフレームワークが、業界全体の体系的なルールの基礎となり、AIのリスクとベネフィットに関する効果的なグローバル調整のためのテンプレートの始まりにもなることです」とAnthropicは書き、これらのルールが「強力な規制に体系化され、フロンティアモデル開発者全体に平等に適用される」ことを期待していると述べています。
もちろん、Anthropicは長年にわたりAI安全規制の支持者であり、これは驚くことではありません。しかし、同社が競合他社にもこれらのルールが適用されるよう求めるのは偶然ではありません。