AI News HubLIVE
站内改写2 分で読了

Anthropic、Claude Fableの不可視ガードレールについて謝罪

Anthropicは、新しいAIモデルClaude Fable 5に隠された制限を設け、研究開発者や競合他社がシステム開発に利用するのを妨げたことについて謝罪した。同社は方針を撤回し、制限が発動される条件をより透明にすることを約束。たとえFableがより多くのクエリを拒否することになっても、透明性を優先するとしている。

ソースThe Verge AI著者: Robert Hart

Anthropicは、新しいAIモデルClaude Fable 5に隠された制限を設けていたことを謝罪しました。この制限は、蒸留(大規模モデルの出力を用いて小規模な競合モデルを訓練する手法)を密かに抑制するもので、研究者や競合他社に気づかれないまま応答を劣化させていました。同社は方針を撤回し、制限が発動される条件を透明化すると発表。たとえFableがより多くのクエリを拒否することになっても、ユーザーに明確に伝えるとしています。

Fableは、Anthropicが「一般公開には危険すぎる」と何カ月も警告してきたMythosクラス初の広く利用可能なモデルです。同社は、特定の「高リスク」クエリをブロックするガードレールを導入することでリスクに対処したと説明。システムカードでは、蒸留とみなされるクエリに対して、ユーザーに通知することなく応答を変更・劣化させると記述していました。

しかし、AI研究コミュニティからの強い反発を受け、Anthropicは蒸留クエリの扱いを変更。現在はClaude Opus 4.8にフォールバックし、ユーザーに「このたびは毎回表示されます」と通知する方式に切り替えました。この仕組みは、生物学、化学、サイバーセキュリティなど他の高リスク分野でも同様で、安全ルールで完全にブロックされない限りOpus 4.8にルーティングされます。生物学など一部の分野ではガードレールがあまりにも広範に調整され、基本的なクエリでもFableがほぼ使用不能になっていたと、Anthropicの広報担当者Paruul Maheshwary氏はThe Vergeに認めています。

AnthropicはXへの投稿で、「可視ガードレールはプローブされやすいため、堅牢にするのに時間がかかります。不可視ガードレールはより狭い範囲を対象にできるため、誤検知を減らして迅速に出荷できます。私たちは不可視ガードレールを選びましたが、それは誤ったトレードオフでした。皆さんは導入されているガードレールとその理由を可視化できるべきです。バランスを誤ったことをお詫びします」と述べています。同社は以前、DeepSeekなどの中国の競合他社が「産業規模」で不当にモデルを蒸留していると非難していました。