2026-06-11站内改写2 分で読了更新: 2026-06-12

Anthropic、Claude Fableの不可視ガードレールについて謝罪

Anthropicは、新しいAIモデルClaude Fable 5に隠された制限を設け、研究開発者や競合他社がシステム開発に利用するのを妨げたことについて謝罪した。同社は方針を撤回し、制限が発動される条件をより透明にすることを約束。たとえFableがより多くのクエリを拒否することになっても、透明性を優先するとしている。

ソースThe Verge AI著者: Robert Hart

記事インテリジェンス

エンジニア上級

要点

AnthropicはClaude Fableに蒸留検出の不可視ガードレールを導入していたことを認めた。
ガードレール発動時、ユーザーは通知なしに劣化した応答を受け取っていた。
新たな措置として、蒸留クエリはClaude Opus 4.8にフォールバックし、明確に通知される。
生物学などの分野ではガードレールが広範すぎ、基本的なクエリでもFableがほぼ使用不能だった。

重要な理由

このニュースが重要なのは、AnthropicはClaude Fableに蒸留検出の不可視ガードレールを導入していたことを認めたためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Anthropicは、新しいAIモデルClaude Fable 5に隠された制限を設けていたことを謝罪しました。この制限は、蒸留（大規模モデルの出力を用いて小規模な競合モデルを訓練する手法）を密かに抑制するもので、研究者や競合他社に気づかれないまま応答を劣化させていました。同社は方針を撤回し、制限が発動される条件を透明化すると発表。たとえFableがより多くのクエリを拒否することになっても、ユーザーに明確に伝えるとしています。

Fableは、Anthropicが「一般公開には危険すぎる」と何カ月も警告してきたMythosクラス初の広く利用可能なモデルです。同社は、特定の「高リスク」クエリをブロックするガードレールを導入することでリスクに対処したと説明。システムカードでは、蒸留とみなされるクエリに対して、ユーザーに通知することなく応答を変更・劣化させると記述していました。

しかし、AI研究コミュニティからの強い反発を受け、Anthropicは蒸留クエリの扱いを変更。現在はClaude Opus 4.8にフォールバックし、ユーザーに「このたびは毎回表示されます」と通知する方式に切り替えました。この仕組みは、生物学、化学、サイバーセキュリティなど他の高リスク分野でも同様で、安全ルールで完全にブロックされない限りOpus 4.8にルーティングされます。生物学など一部の分野ではガードレールがあまりにも広範に調整され、基本的なクエリでもFableがほぼ使用不能になっていたと、Anthropicの広報担当者Paruul Maheshwary氏はThe Vergeに認めています。

AnthropicはXへの投稿で、「可視ガードレールはプローブされやすいため、堅牢にするのに時間がかかります。不可視ガードレールはより狭い範囲を対象にできるため、誤検知を減らして迅速に出荷できます。私たちは不可視ガードレールを選びましたが、それは誤ったトレードオフでした。皆さんは導入されているガードレールとその理由を可視化できるべきです。バランスを誤ったことをお詫びします」と述べています。同社は以前、DeepSeekなどの中国の競合他社が「産業規模」で不当にモデルを蒸留していると非難していました。