Anthropic、Claude利用のAI研究者を「妨害」する可能性があった方針を撤回
Anthropicは批判を受けてClaude Fable 5の安全対策を変更し、フロンティアLLM開発への制限を可視化した。以前はユーザーに知らせずにリクエストの効果を制限していたが、今後はフラグ付きリクエストがOpus 4.8にフォールバックし、APIでは拒否理由が返される。
Anthropicは、Claude Fable 5における物議を醸した方針を撤回した。この方針では、フロンティア大規模言語モデル(LLM)の開発を対象とするリクエストに対し、ユーザーに通知することなくモデルの効果を制限することが可能だった。Wiredの記者Maxwell Zeffの報道によると、Anthropicは声明で「Fable 5のフロンティアLLM開発に対する安全対策を可視化するよう変更している。誤ったトレードオフを行っており、バランスを誤ったことを謝罪する」と述べた。
以前、Anthropicはシステムカードにこの方針を記載しており、Claude Fable/Mythosが「フロンティアLLM開発を対象とするリクエスト」を識別し、ユーザーに知らせずに「効果を制限」する仕様だった。この方針はAI研究コミュニティで大きな反発を招き、研究者の作業を「妨害」するものだと非難された。
AnthropicがTwitterで公表した詳細によると、今週からフラグ付きリクエストは明示的にOpus 4.8にフォールバックするようになる。これはサイバーやバイオ分野の安全対策と同じ仕組みだ。ユーザーは毎回このフォールバックを目にする。APIでは、フラグ付きリクエストに対して拒否理由が返される(サーバーサイドフォールバックは数日以内に対応予定)。
Anthropicは、Fable 5を迅速かつ安全に展開したいと考えていたと説明する。可視的な安全対策は探知される可能性があるため、堅牢である必要があり、その実装には時間がかかる。一方、非可視的な対策はより狭い範囲を対象とでき、誤検知が少なく迅速なリリースが可能だ。しかし、非可視的な対策を選択したのは誤ったトレードオフであり、ユーザーは安全対策の有無と理由を認識する権利があると認めている。
非可視的な制限は撤廃されたものの、批判者はこのカテゴリーの制限自体を完全に撤廃すべきだと主張している。新方針はすでに適用開始されている。