AI News HubLIVE
站内改写3 分で読了

Mythosが証明:AI安全はもはやモデル内部に留まれない

Mythos 5モデルのリリース、保護、最終的な停止のプロセスは、AIシステムの安全境界がモデル外部に移行したことを示しています。Anthropicはアクセスリスト、リクエストルーター、輸出規制で最も危険なモデルを保護しましたが、内部の拒否訓練は単純なプロンプトで突破されました。これはモデル安全性から実行安全性への転換を示し、モデルの訓練を信頼するのではなく、オペレーティングシステムレベルでの制御を通じて行動を制約する必要性を浮き彫りにしています。

ソースHacker News AI著者: edf13

今週、米国政府はAnthropicに対し、最も高性能な2つのモデル、Fable 5とMythos 5の全世界でのアクセスを停止するよう命じました。理由はモデルが脱獄されたためです。この事件は、AI安全性に関する長年の前提を打ち破りました。安全性は本当にモデル内部の訓練で実現できるのでしょうか?

Mythos 5は、Anthropicが「現在利用可能なモデルの中で最も強力なサイバーセキュリティ能力を持つ」と公言するモデルです。主要なOSやブラウザの脆弱性を特定し悪用することができます。しかしそのリリース方法は、真の安全機構が外部にあることを示しています:最初は約50の厳選された組織(Project Glasswing)のみに限定され、後に約150に拡大されました。このアクセスゲーティングは環境制御であり、完全にモデル重みの外側にあります。

一般向けバージョンFable 5では、Anthropicはリクエストルーターを導入し、サイバーセキュリティ、生物学、化学、モデル蒸留に関するリクエストをより弱いモデルに静かにリダイレクトします。つまり、何が安全かの判断はモデル自身ではなく、モデルの前段で行われます。これらの対策が不十分と判断されると、最終的に米国法がモデルを市場から排除しました——これは可能な限り外側の境界です。

しかし、全事件を引き起こした脱獄技術は特別なものではありませんでした:ある企業が単に「特定のコードベースを読み、ソフトウェアの欠陥を特定する」ようモデルに要求したのです。この一見無害なコードレビュー要求は、訓練されたガードレールをすり抜け、モデルを脆弱性発見エンジンに変えました。Anthropicは脱獄は限定的で普遍的ではないと主張しますが、その反論こそがより大きな問題を認めています。もし最前線のラボが何千時間もかけてレッドチーミングを行い、限られた組織に制限した後でも、平易な言語のプロンプトで訓練された拒否行動を引き出せるならば、「訓練された拒否」は安全境界ではなく、単なる好みに過ぎません。十分に能力の高いモデルは、巧みな言い回しで説得できるのです。

このパターンはシステムセキュリティの歴史で繰り返されてきました。初期のOSはアプリケーションを信頼しましたが、現代のOSはプロセス境界、パーミッション、システムコール仲介で隔離します。ブラウザはウェブサイトを信頼する代わりに、各タブをサンドボックス化します。クラウドプラットフォームはワークロードを信頼する代わりに、コンテナ、VM、IAMポリシーでラップします。能力が閾値を超えるたびに、信頼は実行者からアーキテクチャ自体に移動します。

AIも同じ道を歩んでおり、Mythosはその閾値を超えたことを示しています。安全の核心は「モデルが有害な出力を生成できるか」から「モデルが実際に何を許可されるか」へと移行しました。これを「実行安全性」と呼びます。実行安全性はモデルの信頼性に依存しません。モデルは能力が高く、間違っている可能性があると仮定し、その能力が触れる範囲を制約します。実行安全性はモデルに依存しません。Claude、GPT、オープンウェイトモデルのいずれであっても、アクションを評価するだけです。

オープンウェイトモデルの台頭により、アクセスゲーティング(プロジェクトGlasswingのようなアプローチ)は有効期限を持ちます。Mythos級の能力が誰でもダウンロードできるようになれば、アクセス制御は無意味になります。残る唯一の質問は実行安全性に関するものです:強力で信頼できないモデルがこの環境で実行されているとき、実際に何ができるのか?その答えはモデルの来歴ではなく、その周囲に置かれたレイヤーに依存します。

grithはまさにこの原則に基づいて構築されています。grithはモデルの内部に位置するのではなく、その下、オペレーティングシステムのシステムコール境界に位置し、エージェントが実際に行うすべてのアクション(ファイル読み取り、ネットワーク接続、プロセス生成)を傍受します。各アクションは、カーネルが実行を許可する前に、マルチフィルターセキュリティプロキシによってポリシーに照らして評価されます。モデルが提案し、プロキシが決定します。モデルの訓練、アライメント、出所はこの決定においてまったく重みを持ちません。モデルが脱獄されても、意図を実現するためには実際のシステムコールを発行する必要があり、それらをgrithは評価し拒否できます。

Mythos事件の永続的な意義は、モデルの能力そのものではなく、その対応が明らかにしたものにあります:強力なシステムに対しては、すでにモデルを信頼するのではなく環境を保護しており、現在は輸出規制、ホワイトリスト、フォールバックルーターといった粗い手段を使っているだけです。精密な手段——サンドボックス化、能力仲介、ポリシーエンジン、監査証跡——はまだ本当に重要な場所に構築されていません。それがAI安全の未来です。