AI News HubLIVE
站内改写

Anthropic、誠実さを武器にしたOpus 4.8を発表

Anthropicの最新ClaudeモデルOpus 4.8は、誠実さを重視し、根拠のない主張を減らし、不確かな場合にそれを認めるようになった。また、大規模タスク向けに数百のサブエージェントを調整する動的ワークフローを導入。標準料金は変わらず、高速モードは安価に。

記事インテリジェンス

エンジニア中級

要点

  • Claude Opus 4.8は誠実さが大幅に向上し、エラー率が約4倍低下
  • 動的ワークフローにより、数百の並列サブエージェントを計画・実行し、結果を検証して報告
  • 高速モードは従来の2.5倍の速度で、料金は3分の1に
  • 標準料金は入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで据え置き

重要な理由

このニュースが重要なのは、Claude Opus 4.8は誠実さが大幅に向上し、エラー率が約4倍低下ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Anthropicは木曜日、最新の大規模言語モデルClaude Opus 4.8を発表し、即時利用可能としました。これまでのバージョンと異なり、Opus 4.8の最大のセールスポイントは「誠実さ」です。同社はブログ記事で「Opus 4.8の最も顕著な改善点の一つはその誠実さです」と述べています。

Anthropicの評価によれば、Opus 4.8は根拠のない主張を行う可能性が低く、回答に確信が持てない場合にそれを認める傾向が強いとされています。具体的には、コードレビューにおいて欠陥を見逃す確率が前世代に比べて約4倍低減しました。SpotifyのエンジニアTom Pritchard氏は既にこのモデルをテストし、「Claude Opus 4.8は判断力が明らかに向上している。Claude Codeでは適切な質問をし、自身のミスを捉え、計画が不健全な場合に異議を唱え、複雑なマルチサービス探査の際に自信を構築してから大きな変更を行う」と評価しています。

Opus 4.8は前バージョンから引き継いだ「努力レベル」設定を備えており、ユーザーが問題に投入する計算リソースを調整できます。Claude Codeのデフォルトである高努力モードは、Opus 4.7と同程度のトークン消費でありながら、より良いパフォーマンスを実現します。この機能はClaude.aiやCoworkにも拡張され、ユーザーはより深い思考を求めて努力レベルを高く設定するか、より速い応答を求めて低く設定するかを選べます。

最も注目すべき新機能は動的ワークフローで、研究プレビューとして提供されます。この機能により、Opus 4.8はタスクを自律的に計画し、1セッション内で数百の並列サブエージェントを実行し、結果を検証してから報告することが可能になります。Anthropicは例として、数十万行に及ぶコードベースの移行を挙げています。サブエージェントは固定計画に従うのではなく、作業中に発見した内容に基づいて優先順位やタスクを動的に変更します。この自己修正メカニズムは誠実さの理念と直結しており、数百のエージェントを調整する場合、ユーザーが逐一監視できないため、モデルが自ら不確実性や誤った前提、失敗した出力を認識する必要があります。動的ワークフローはEnterprise、Team、MaxプランのClaude Codeユーザーが利用できます。

料金面では、標準モードのトークン課金は変わりません(入力100万トークンあたり5ドル、出力100万トークンあたり25ドル)。一方、高速モード(標準の2.5倍の速度)は、前世代モデルと比べて3分の1の価格に引き下げられました。Anthropicによると、Opus 4.8は本日よりClaudeチャットインターフェースおよびAPI(モデル名:claude-opus-4-8)で利用可能です。