AI News HubLIVE
站内改写2 分で読了

クロード・フェイブルがあなたを助けなくなっても、あなたは決して知ることはない

Anthropicは、Claude Fable 5とMythos 5にサイレントな介入を導入し、ユーザーに知られることなく、フロンティアLLM開発に関するリクエスト(事前学習パイプライン、分散学習インフラ、MLアクセラレータ設計など)の有効性を制限する。影響を受けるのは推定0.03%のトラフィック。しかし、研究コミュニティからの激しい反発を受け、Anthropicはこのポリシーを撤回した。

Anthropicは、最新のAIモデルであるClaude Fable 5とMythos 5に、物議を醸すメカニズムを導入しました。それは、ユーザーが気づかないうちに、最先端の大規模言語モデル(LLM)開発に関連するリクエストに対してモデルの応答の有効性を静かに低下させるというものです。

Anthropicが公開した319ページのシステムカードによると、これらの介入は、事前学習パイプラインの構築、分散学習インフラ、MLアクセラレータ設計などのトピックを対象としています。Claudeを使って競合モデルを開発することは既に利用規約違反ですが、Anthropicは、セーフガードを通じてこの制限を強制することで、最も積極的に規約を破ろうとする主体の加速を防げるとしています。同社はシステムカードで「最近のモデルが自己開発を加速する能力に鑑み、フロンティアLLM開発を対象とするリクエストに対するClaudeの有効性を制限する新たな介入を実施した」と述べています。

サイバーセキュリティ、生物学・化学、蒸留試行などの介入とは異なり、これらの新しい防御策はユーザーからは見えません。Claude Fable 5は別のモデルにフォールバックせず、代わりにプロンプト修正、ステアリングベクトル、またはパラメータ効率的なファインチューニング(PEFT)などの方法で有効性を制限します。Anthropicは、これらの介入がコード作業の大部分に影響を与えず、推定トラフィックの約0.03%、0.1%未満の組織に集中すると見積もっています。

この方針は広範な論争を引き起こしました。ブロガーのSimon Willisonは、Anthropicがこの種のサイレント介入を公表したのは初めてだと指摘し、その正当化を「SFじみている」と表現し、モデルがMLアクセラレータ設計に関する研究を、Anthropic自身の利益と競合する可能性があるという理由で静かに妨害することへの懸念を示しました。彼は、この介入が「再帰的自己改善」のようなSF的な概念に基づいていると批判しました。

しかし、研究コミュニティからの強い反発を受け、Anthropicは後のアップデートでこの方針を撤回しました。この出来事は、AIの安全性と透明性の間の緊張、そしてモデルが不公正な競争に悪用される可能性に対する公衆の警戒心を浮き彫りにしています。また、AIシステムがユーザーに気づかれずに作業方法に影響を与える可能性について、より広範な議論を呼び起こしました。