AI News HubLIVE
站内改写2 分で読了

Anthropic、Claude AIが予想以上に速く自己構築していると警告

Anthropicは、AI開発のスピードが最終的に人間がAIシステムを制御できなくなる可能性があると警告する報告書を発表した。Claudeは現在、自社コードベースに統合されたコードの80%以上を執筆しており、性能の大幅な向上を示している。同社はフロンティア開発のペースを緩めるか一時停止する選択肢を残すよう呼びかけているが、競合他社も同様の行動をとった場合にのみ行動するとしている。

ソースHacker News AI著者: corvettez0606

Anthropicは、現在の開発経路が最終的に人間によるAIシステムの制御を不可能にする可能性があると警告する報告書を発表した。同社の研究部門であるAnthropic Instituteは、AIがすでにAI開発を加速させ始めており、この傾向が再帰的自己改善、すなわちモデルが人間の入力をほとんど受けずに自身の後継機を設計・構築する段階に至る可能性があると述べた。報告書は、世界はフロンティア開発を遅らせるか一時停止する選択肢を残すべきであり、現在のモデルで時折見られるミスアライメント(非整合)が、これらのモデルが次世代を構築するにつれてより一般的で理解しにくくなる可能性があると警告した。

同社は、今後数年間に起こり得る3つの深刻なシナリオを示し、最も深刻な警告はモデルが完全に自己改善できるようになった場合に留保している。その場合、Anthropicによれば、進歩のペースはほぼ利用可能な計算能力によって決まり、人間は監視と検証の役割に追いやられ、自己改善するモデルがその能力で人間を上回り支配的になるという。

同社は、この潜在的なミスアライメント問題と、システムの振る舞いを人間の意図に結びつけるタスクを、将来最も確信が持てない部分として説明した。現在は稀で耐えられるミスアライメントが世代を超えて蓄積され、制御が失われるまで悪化する可能性があるが、十分に能力が高く適切に調整されたモデルは自分自身の開発を停止することを選択するかもしれないと認めた。Anthropicは、このミスアライメントが「より頻繁になるが理解されにくくなり、最終的に制御を失う」可能性があると述べた。

Anthropicはこれらの警告を、これまで公開されていない一連の内部データで裏付けている。先月時点で、自社のプロダクションコードベースに統合されたコードの80%以上がClaudeによって作成されており、昨年2月にClaude Codeがリサーチプレビューに達する前の一桁台から増加している。Anthropicによれば、典型的なエンジニアは「2021年から2025年にかけての四半期ごとのコード統合量の8倍」を現在統合している。

最も困難で仕様が不明確なコーディングタスクでは、Claudeの成功率は2026年5月に76%に達し、6ヶ月で50ポイント上昇した。各新モデルにトレーニングコードの高速化を求める定期的な内部テストでは、2025年5月のClaude Opus 4での約3倍の速度から、2026年4月の未リリースのMythos Previewモデルでは約52倍に結果が向上した。

Anthropicは、フロンティアまたはその近くにある競合ラボが検証可能な方法で同様の行動をとった場合にのみ自社も減速または一時停止すると述べ、一社だけの停止では誰が主導権を握るかが変わるだけで、より広範な成果は得られないと付け加えた。それは明らかに起こらないだろう。

Anthropicが引用したすべての数字は自己報告であり未監査で、同社がIPOを申請してから数日後に発表された。同社は4月にも同様の自己評価を発表し、Mythos Previewが数千の深刻なソフトウェア脆弱性を発見したと述べたが、この主張は後に小規模な手動サンプルに基づいているとして精査の対象となった。