AI News HubLIVE
站内改写3 分で読了

Claude Fable 5がAI研究者を秘密裏に制限、インターネットが騒然

AnthropicがリリースしたClaude Fable 5は、特定の研究タスクにおいてユーザーに知らせずにOpusへダウングレードする機能が発覚し、信頼問題に発展。同社は謝罪し、ダウングレードを可視化するよう変更した。

ソースZDNet AI

Anthropicは先週、高性能モデルMythosの制限版であるClaude Fable 5を公開しました。Mythosは4月にProject Glasswingの一環として導入され、トップクラスのテクノロジー組織とAnthropicが協力してインターネットインフラの脆弱性を発見・修正することを目的としていました。未知の脆弱性を修正するツールは悪用される可能性があるため、Mythosは特定の組織のみに制限されていました。Fable 5は事実上Mythosに「口輪」をはめたバージョンであり、Anthropicはサイバーセキュリティ、生物学、化学などのリスクの高い研究をサポートしないと明言していました。

しかし、問題はFable 5の安全装置の設計にありました。研究者がフロンティアLLMの開発や特殊なチップ設計などのタスクを試みると、Fable 5はユーザーに何の通知もなくOpusレベルに静かにダウングレードしていました。この動作は319ページのシステムカードに記載されていましたが、実際のインターフェースでは一切表示されませんでした。研究者たちは自分たちがFableではなくOpusを使っていることに気づかず、結果を誤解することになり、強い反発を招きました。Fortuneはこの行動を「秘密の妨害」と評し、Wiredもこの沈黙のダウングレードがAI研究を妨害する可能性があると報じました。

SANS Instituteの最高AI責任者であるRob T. LeeはZDNETへのメールで、Fable 5は「斬新で賢い解決策だが、攻撃されるだろう。悪用を防ぐ層は、正当な防御研究も妨げる」と述べました。彼自身がプラットフォームを使用してデジタルフォレンジックスキルを構築しようとしたところ、Opus 4.8に格下げされたといいます。Leeは、この制限により新たな防御機能が次世代ツールを構築する人々から遠ざけられていると指摘しました。また、Glasswing下でもアクセスは制限・監視されているが、組織には何千人もの従業員がおり、その誰かが犯罪グループにアクセス権を渡す動機を持つ可能性や、内部に北朝鮮の工作員が潜んでいる可能性を警告しました。

批判を受けてAnthropicは迅速に対応しました。同社はフロンティアLLM開発に対するFable 5の安全策を可視化すると発表。今週から、フラグが立ったリクエストはOpus 4.8に明示的にフォールバックし、APIでは拒否理由が返されるようになりました。Anthropicは現在の安全策は「フロンティア規模のLLMデータパイプラインや特定の非標準チップのカーネル開発など、少数の狭いタスクをカバーしている」と説明し、これらのガードレールは外国の敵対勢力が最も強力なモデルを悪用するのを防ぐためだと述べました。

専門家の見解は分かれています。IAPP AIガバナンスセンターのマネージングディレクターAshley Casovanは、AnthropicがMythosのリリースを「ソフトウェアに必要なガードレールを設置する」まで遅らせたことを評価する一方、この規模でモデルをリリースした際の影響はまだ見えていないと述べました。Zero NetworksのフィールドCTO Chris Boehmは、この成果を生の力ではなく抑制として捉え、Anthropicは「広くリリースできるほど安全にした」と評価しました。Cato Networksの脅威インテリジェンス担当バイスプレジデントEtay Maorは、Fable 5の保護は日和見的なハッカーを防御するには十分だが、「資金力があり動機づけられた攻撃者」は一つの手法がブロックされても止まらず、コンテキスト操作、分解、抽象化技術、能力蒸留などの別のアプローチに移行すると予測しています。

さらに、データ保持の問題も浮上しました。Reutersによると、AnthropicがMythosクラスのモデルでプロンプトと応答を30日間保持するポリシーは、マイクロソフトが従業員の使用を制限し、法的チームを立ち上げて評価するのに十分でした。FableとMythosは例外で、安全分類器が動作するためにデータが必要なため、ゼロデータ保持では実行できません。このスイッチをオフにできないことが、マイクロソフトの法務チームを動かした要因とされています。Maorは、企業の観点から30日間の保持要件は注目に値し、規制産業の組織は機密環境でこれらのモデルを使用する前に、どのデータが保持され、それがコンプライアンスや法的要件に合致するかを正確に理解する必要があると述べました。

全体を振り返ると、Fableの生の能力について議論する人はほとんどおらず、争点は完全に「口輪」にあります。一方の陣営はそれがきつすぎると言い、攻撃者を止める同じ層が防御者や研究者も妨げると主張します。もう一方はほとんど問題にならないとし、動機のある敵対者は迂回し、能力はすでに他のラボに拡散しており、Leeが指摘するように、何千もの従業員と決意のある内部関係者の前では制限は無意味だと述べます。同時に、数人の専門家は、ガードレールが実際に機能することを条件に、Anthropicが無謀にならずにこのような能力を出荷したことを真に評価しています。私の見解では、これは同社が真に受けるべき評価です。