AI News HubLIVE
站内改写

クロードの新モデル、失敗時に“正直”に振る舞う

Anthropic は木曜日に Claude Opus 4.8 をリリースし、「正直さ」を強調。初期テスターは、モデルが不確実性を積極的に示し、根拠のない主張を減らす傾向があると報告。評価では、コードの欠陥を見逃す割合が前世代比で約4分の1に低減。さらに、ユーザーはタスクに割く努力量を調整可能で、「動的ワークフロー」機能により数百のエージェントを並行実行できる。

記事インテリジェンス

エンジニア中級

要点

  • Claude Opus 4.8 は不確実性を明示し、根拠のない主張を避ける。
  • コードレビューでの欠陥見逃し率が前世代比で約4分の1。
  • タスクへの努力量を調整してトークン消費を制御可能。
  • 「動的ワークフロー」機能で数百のサブエージェントを並列実行。

重要な理由

このニュースが重要なのは、Claude Opus 4.8 は不確実性を明示し、根拠のない主張を避けるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Anthropic は木曜日、最新の AI モデル Claude Opus 4.8 をリリースし、同モデルの「正直さ」を強調しました。同社は、すべてのモデルに対して「例えば、裏付けのない主張を避ける」ように訓練していると述べています。しかし、AI モデルの共通の問題として、「証拠が不十分なまま結論を急ぎ、進展していると自信を持って提示する傾向がある」とも指摘しています。

AI 研究所は、初期テスターが Opus 4.8 について「作業の不確実性をより頻繁に指摘し、根拠のない主張を減らす傾向がある」と報告したと主張しています。社内評価では、Opus 4.8 はコードに書かれた欠陥を見逃す確率が「前世代よりも約4分の1低い」とされています。

正直さの向上に加えて、Opus 4.8 ではユーザーが Claude にタスクへ費やす努力量を指示できるようになりました。高努力の応答はより多くのトークンを消費しますが、低努力の応答を選べばレート制限を節約できます。さらに、Anthropic は研究プレビューとして「動的ワークフロー」機能も発表し、これにより「Claude は作業を計画し、単一セッションで数百の並列サブエージェントを実行できる(Opus 4.8 ではエージェントの実行時間も延長)。そして、ユーザーに報告する前に出力を検証する」と説明しています。