Anthropic、Claude Sonnet 5 を展開、Fable と Mythos を復旧
Anthropic は連邦輸出管理審査を経て Claude Sonnet 5 をリリースし、Fable および Mythos フロンティアモデルへのアクセスを復旧しました。Amazon の研究者が Fable 5 の安全制御を迂回する方法を発見したため、これらのモデルは18日間停止されていました。新しい自動分類器は99%以上の成功率でこの脆弱性をブロックしますが、誤検出が増加します。Sonnet 5 はベンチマークと実際の導入(Rakuten、Zapier など)で優れた性能を示し、セキュリティ監査ではリスクの増加は見られませんでした。Anthropic は Amazon、Microsoft、Google と協力して新たなセキュリティ脆弱性フレームワークを策定しています。
人工知能企業 Anthropic は、Claude Sonnet 5 をリリースし、フロンティアモデル Fable 5 および Mythos 5 へのアクセスを復旧したと発表しました。これらは米国政府の輸出管理指令により18日間停止されていました。
この制限は、Amazon の研究者が Fable 5 の安全制御を迂回し、ソフトウェアの脆弱性を特定して悪用コードを提供する方法を発見したことを受けて発動されました。Anthropic はその後、この脆弱性を修正するための更新された自動分類器を開発し、全面的な商用展開への道を開きました。
停止中のセキュリティ評価により、脆弱性の特定行動は Fable 5 に固有ではないことが確認されました。Claude Opus 4.8、GPT-5.5、Kimi K2.7 など、複数のプロバイダーからの旧型アーキテクチャでもまったく同じ結果が再現されました。
新しいセキュリティ分類器は、Amazon が報告した特定の迂回メカニズムを対象に訓練され、広い安全マージンで動作し、悪意のある意図の統計的確率を示すあいまいな開発者プロンプトを識別してブロックします。内部検証データによると、更新された分類器は報告された悪用手法を99%以上の試行で阻止します。開発者がこの境界をトリガーするプロンプトを発行すると、プラットフォームは自動的にワークロードを古い Opus 4.8 アーキテクチャにルーティングし、継続性を維持します。しかし、この拡大された安全マージンはエンジニアリングチームに明確なトレードオフをもたらし、自動化システムが日常的なアプリケーション開発やソフトウェアデバッグ中に良性のリクエストをより頻繁にフラグ付けするようになります。
当面の商業的焦点は、新しく展開された Claude Sonnet 5 にあります。エンジニアリングチームは、運用コストを削減しつつ高い実行能力を維持するために、自律エージェントをこのモデルに移行しています。パフォーマンスデータは、このシステムが複数ステップの計画を実行し、ターミナル環境を操作し、人間の介入なしにウェブブラウザをナビゲートすることを確認しています。
ベンチマークでは、Sonnet 5 は SWE-bench Pro で63.2%、Terminal-Bench 2.1 で80.4%を達成し、前世代の Sonnet 4.6(58.1%、67.0%)を上回っています。Opus 4.8 は69.2%と82.7%でリードしていますが、コストは高くなっています。Sonnet 5 の入力および出力コストは100万トークンあたりそれぞれ3.00ドルと15.00ドルで、Sonnet 4.6 と同じであり、2026年8月31日までのプロモーションレートが適用されます。
実際の導入例では、組織がこのアーキテクチャをライブソフトウェア開発パイプラインでどのように活用しているかが示されています。Rakuten では、テクノロジーチームが同社の最も困難なプロダクションコードのプルリクエスト数十件に対してこのアーキテクチャを展開しました。システムは各提出物を独立して処理し、テストを実行して結果を検証した後、完成したコードを人間のエンジニアに最終的な構造承認のために提示しました。ソフトウェア自動化企業 Zapier は、このシステムを中核製品ワークフローに統合し、多部分管理タスクを実行しています。ある文書化された導入では、エンジニアがモデルに Salesforce のアカウント階層を更新させ、その後リリース発表を生成してエンタープライズ連絡先に送信するよう指示しました。以前のモデルアーキテクチャは、これらの多段階操作の途中で頻繁に停止していましたが、現在のシステムは人間の介入なしにシーケンス全体をエンドツーエンドで実行しました。開発ツールプロバイダー Zed は、このシステムを利用して複雑なデバッグ手順を自動化しました。内部試験では、エンジニアリングチームがモデルにアクティブなソフトウェアバグの調査を指示しました。明示的なプロンプトや段階的な指示なしに、システムは独立して再現テストスクリプトを生成し、必要なコード修正を適用し、修正をスタッシュしてバグがパッチなしで再発することを確認しました。診断と修復のシーケンス全体が単一の処理パス内で行われました。ソフトウェアエンジニアリングプラットフォーム Factory は、複雑なコードベース環境内での持続的なコーディングタスクを管理するためにこのアーキテクチャを実装しました。技術チームは、システムが企業コードリポジトリ全体で論理的な基盤と一貫した実行を維持し、以前タイムアウトしたり解決できなかったタスクを完了することで、前世代のソフトウェア層を上回ったと報告しています。
正式なシステムカードからのデータは、このシステムがセキュリティリスクの対応する増加なしにこれらの自律能力を達成していることを示しています。欺瞞的な傾向や不正なリクエストへの協力をテストするために設計された自動行動監査では、モデルは直接の前世代である Sonnet 4.6 と比較して、全体的な非準拠行動の割合が低いことが示されています。このアーキテクチャは高度な攻撃的サイバーセキュリティ能力を持ちません。Anthropic のエンジニアはトレーニングプロトコルから専門的なサイバーセキュリティデータセットを除外し、システムを日常的な防御的技術タスクに制限しています。Mozilla と協力して実施された公開セキュリティ評価では、研究者は Firefox 147 ブラウザコアの既知の脆弱性に対する機能的なエクスプロイトを構築するモデルの能力をテストしました。モデルはすべての評価ウィンドウで単一の動作するエクスプロイトを生成できず、成功率はゼロでした。13.2%の部分成功率を達成しましたが、これは Sonnet 4.6 からわずかに増加しており、エンジニアはこの変動をドメイン固有の攻撃的トレーニングではなく、論理的推論の一般的な向上に起因すると考えています。慎重を期して、商用バージョンにはトップクラスの Opus 4.8 フレームワークと同等のデフォルトのリアルタイムセキュリティ分類器が搭載されています。
Fable 5 をめぐる規制上の摩擦は、Anthropic、Amazon、Microsoft、Google の間で、モデルセキュリティ侵害を評価するための客観的な業界フレームワークを確立するための正式なパートナーシップを促進しました。現在、プロバイダーにはシステム迂回の重大度を分類するための共有メトリックがなく、研究者が新しいプロンプト脆弱性を特定した際に規制の不確実性が生じています。提案されたガバナンスフレームワークは、4つの特定の技術基準にわたってセキュリティ侵害をスコアリングします:能力獲得は、エクスプロイトがユーザー能力を標準の広く利用可能なソフトウェアユーティリティを超えてどの程度向上させるかを測定します。能力獲得の広さは、同じエクスプロイトがロックを解除する異なる攻撃的操作の数を定量化します。兵器化の容易さは、有害な出力を抽出するために必要な人間のエンジニアリング労力と専門的なプロンプトの量を追跡します。発見可能性は、公開研究サークル内でのエクスプロイト技術のアクセスしやすさを決定します。開発者とサイバーセキュリティ専門家は、このマトリックスを使用して防御対応を調整します。高重大度の侵害(会計システムや送電網を直ちに混乱させる能力を示すエクスプロイトなど)については、プロバイダーは即座に自動緩和策を展開します。このイニシアチブは、新たに確立された HackerOne 脆弱性研究プログラムと、脅威インテリジェンスチャネルを24時間監視する専用の企業監視チームと並行して運営されます。
展開戦略は、モデルビルダーと国家規制機関との間のこの緊密な関係に適応する必要があります。Anthropic は、最近の大統領令に基づき、連邦研究者が公開商業リリース前にフロンティアアーキテクチャに早期アクセスできるようにする正式な合意を結んでいます。これらの共同評価ウィンドウにより、外部のセキュリティアナリストが内部エンジニアリングチームとともにモデル能力を監査し、コードが本番環境に入る前に規制適合性を確保できます。