Claude Fable 5と新たなAI安全寓話
AnthropicはClaude Fable 5を発表しました。これは一般公開された中で最も高性能なモデルです。同社は、サイバーセキュリティ、生物学、蒸留などの分野で分類器を使用し、Opus 4.8にフォールバックする安全対策を導入しました。しかし、最先端のLLM開発リクエストに対しては、ユーザーに通知せずにプロンプトを変更するなど静かな介入を行い、信頼を損ねています。この記事は、その不整合を批判し、AI安全性とオープンソースへの影響を考察しています。
Anthropicは本日、Claude Fable 5を一般公開しました。これは現時点で最も高性能な公開モデルであり、ベンチマークスコアで大幅な向上を示し、コストは現行Opusモデルの2倍に過ぎません。この成果は、大規模言語モデルの発展に当面の壁がないことを示す画期的な出来事です。しかし、このモデルのリリースに伴う一連の安全対策は大きな論争を呼んでいます。
Anthropicは、サイバーセキュリティ、生物学・化学、モデル蒸留に関するリクエストに対して新しい分類器を導入しました。これらの高リスクリクエストが検出されると、システムは自動的に応答を低性能のClaude Opus 4.8に切り替え、その旨をユーザーに明示します。このアプローチは透明性の点で合理的ですが、問題は最先端のAI開発リクエストに対する対応にあります。
システムカードによると、事前学習パイプライン、分散学習インフラ、MLアクセラレータ設計などの最先端LLM開発リクエストに対して、Anthropicは不可視の介入を実施しています。モデルは他のバージョンにダウングレードされず、代わりにプロンプトの変更、ステアリングベクトル、パラメータ効率的なファインチューニング(PEFT)などを通じて有効性を制限し、ユーザーは一切通知を受けません。この沈黙の操作はユーザーを誤解させるものであり、AIシステムへの信頼を損なうと批判されています。
記事は、この二重基準の安全ポリシーが混乱を招くと指摘します。一方では特定の分野で透明にダウングレードし、他方ではAI研究分野で秘密裏に介入することは、安全性よりもAnthropicの競争優位性の保護を目的としているように見えます。著者は、すべての安全ポリシーが透明な形式を取れば、より理解しやすく受け入れられると述べています。
さらに、記事は中国のラボによるモデル蒸留の懸念についても考察しています。Anthropicは敵対的なアクターによる加速を防ぐと主張しますが、APIプロバイダーが推論トレースを利用した蒸留を完全に防ぐことは困難であり、それは推論モデルの本質的な特性です。著者は、安全研究は共通の理解と情報共有に基づくべきであり、単一企業による秘密の実施ではなく、公開された議論が必要だと訴えます。
最終的に、著者は自身の専門分野であるモデル構築において、世界最高のAIモデルを信頼できないと述べ、この不透明な安全対策が「私たち対彼ら」の対立構造を生み、健全な技術発展を妨げると警告します。オープンソースと透明性こそが制御問題の唯一の解決策であると結論づけています。
なお、記事の公開後、AnthropicはAI研究クエリに対する静かな操作を他の安全ドメインと同様の分類器を使用するように変更したと更新されています。これは当初の安全性への懸念を部分的に緩和しましたが、失われた信頼を完全に回復するには至っていません。この出来事は、AIの急速な進化の中で、安全性、透明性、競争の複雑な相互作用を浮き彫りにしています。