2026-05-29 02:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

クロードの新モデル、失敗時に“正直”に振る舞う

Anthropic は木曜日に Claude Opus 4.8 をリリースし、「正直さ」を強調。初期テスターは、モデルが不確実性を積極的に示し、根拠のない主張を減らす傾向があると報告。評価では、コードの欠陥を見逃す割合が前世代比で約4分の1に低減。さらに、ユーザーはタスクに割く努力量を調整可能で、「動的ワークフロー」機能により数百のエージェントを並行実行できる。

ソースThe Verge AI著者: Jay Peters

Anthropic は木曜日、最新の AI モデル Claude Opus 4.8 をリリースし、同モデルの「正直さ」を強調しました。同社は、すべてのモデルに対して「例えば、裏付けのない主張を避ける」ように訓練していると述べています。しかし、AI モデルの共通の問題として、「証拠が不十分なまま結論を急ぎ、進展していると自信を持って提示する傾向がある」とも指摘しています。

AI 研究所は、初期テスターが Opus 4.8 について「作業の不確実性をより頻繁に指摘し、根拠のない主張を減らす傾向がある」と報告したと主張しています。社内評価では、Opus 4.8 はコードに書かれた欠陥を見逃す確率が「前世代よりも約4分の1低い」とされています。

正直さの向上に加えて、Opus 4.8 ではユーザーが Claude にタスクへ費やす努力量を指示できるようになりました。高努力の応答はより多くのトークンを消費しますが、低努力の応答を選べばレート制限を節約できます。さらに、Anthropic は研究プレビューとして「動的ワークフロー」機能も発表し、これにより「Claude は作業を計画し、単一セッションで数百の並列サブエージェントを実行できる（Opus 4.8 ではエージェントの実行時間も延長）。そして、ユーザーに報告する前に出力を検証する」と説明しています。