AI News HubLIVE
站内改写

Claude Opus 4.8 発表:より効率的でインテリジェントに

Anthropic は Claude Opus 4.8 をリリースしました。これはフラッグシップモデルの最新バージョンで、ベンチマーク、協調性、正直性などで大幅な改善を遂げています。また、努力制御、動的ワークフローなどの新機能も導入されました。Opus 4.8 はコーディング、エージェントタスク、推論、知識作業のテストで前モデルを凌駕し、価格は据え置きです。さらに、より高知能なMythosクラスのモデルも予告されています。

記事インテリジェンス

エンジニア中級

要点

  • Claude Opus 4.8 は複数のベンチマークで Opus 4.7 を上回り、特に正直さとエージェント能力で顕著な進歩
  • 新機能:努力制御、Claude Code の動的ワークフロー、API の改善
  • 価格は据え置き、高速モードは従来の3分の1に
  • より高知能なMythosクラスのモデルを開発中

重要な理由

このニュースが重要なのは、Claude Opus 4.8 は複数のベンチマークで Opus 4.7 を上回り、特に正直さとエージェント能力で顕著な進歩ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Anthropic は2026年5月28日、フラッグシップAIモデルの最新版となる Claude Opus 4.8 を正式に発表しました。Opus 4.7 の強固な基盤を継承しつつ、複数のベンチマークで優れた成績を収め、より効果的なコラボレーションパートナーとして進化しています。新モデルは本日から利用可能で、価格は据え置きのまま提供されます。

Opus 4.8 の最大の特徴は、正直性の大幅な向上です。初期テスターからは、モデルが自らの作業における不確実性を積極的に指摘し、根拠のない主張を減らす傾向が報告されています。Anthropic の評価では、Opus 4.8 がコードレビューで欠陥を見逃す確率は前モデルに比べて約4分の1に低減しました。アライメント評価では、ユーザーの自律性を支援し、最善の利益に沿って行動するなどの向社会性で新記録を達成し、誤った行動の割合は Opus 4.7 よりも大幅に低く、最も安全なモデルである Claude Mythos Preview と同等の水準を示しています。

能力面では、Opus 4.8 はコーディング、エージェントタスク、推論、実用的な知識作業など多岐にわたるテストで卓越したパフォーマンスを発揮しています。Super-Agent ベンチマークでは全ケースをエンドツーエンドで完了した唯一のモデルとなり、CursorBench では全前世代モデルを凌駕しました。法律エージェントベンチマークでは最高スコアを記録し、コンピューター使用とブラウザエージェントでは Online-Mind2Web で84%を達成、Opus 4.7 や GPT-5.5 を大きく引き離しています。

Opus 4.8 のリリースに伴い、Anthropic は以下の新機能も導入しました:Claude Code における「動的ワークフロー」(研究プレビュー版)は、単一セッションで数百の並列サブエージェントを実行可能にし、大規模なコードベース移行などの複雑なタスクに対応します;claude.ai と Cowork では新たに努力制御機能が追加され、ユーザーは応答の思考深度を「低」「高」「最大」から選択できます;Messages API はメッセージ配列内でシステムエントリを受け付けるようになり、プロンプトキャッシュを壊すことなくタスク途中で指示を更新できるようになりました。

さらに、Opus 4.8 の高速モードの価格は大幅に引き下げられ、従来の3分の1(入力100万トークンあたり10ドル、出力100万トークンあたり50ドル)となりました。Anthropic は、Project Glasswing の一環として、Opus よりもさらに高い知能を持つ Mythos クラスのモデルを開発中であり、現在は一部の組織がサイバーセキュリティ業務で Claude Mythos Preview を利用しています。数週間以内に全顧客向けに提供する予定です。

Claude Opus 4.8 は本日より、Claude API(モデルID:claude-opus-4-8)、claude.ai、および各種プラットフォームで利用可能です。動的ワークフローを含む新機能は、Enterprise、Team、Max プランのユーザーがアクセスできます。