AI News HubLIVE
站内改写

Claude Opus 4.8 登場:努力制御、動的ワークフロー、安価な高速モード、より正直で欺瞞の低減

Anthropic はフラッグシップモデル Opus 4.8 をリリース。ユーザーは Claude の「努力」レベルを調整可能になり、動的ワークフローで大規模コーディングタスクに対応、高速モードの価格が従来の3分の1に。ベンチマークでは GPT-5.5 や Gemini 3.1 Pro をリードするが、端末コーディングでは OpenAI に劣る。誠実さと自律性サポートが向上し、欺瞞率が大幅に低下。

記事インテリジェンス

エンジニア中級

要点

  • ユーザーは Claude の「努力」レベルを調整可能になり、応答品質と速度をトレードオフできる。
  • 動的ワークフロー(研究プレビュー)により、単一セッションで数百の並列サブエージェントを実行し、大規模なコードベース移行が可能。
  • 高速モードの価格が従来の3分の1に低下。
  • 誠実さが約4倍向上し、コードの欠陥を見逃す可能性が減少、欺瞞率も大幅に低下。

重要な理由

このニュースが重要なのは、ユーザーは Claude の「努力」レベルを調整可能になり、応答品質と速度をトレードオフできるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

木曜日、Anthropic はフラッグシップモデルの最新バージョン Opus 4.8 をリリースしました。主な新機能として、ユーザーが Claude の「努力」レベルを調整できる機能、大規模なコーディングタスクに対応する動的ワークフロー(研究プレビュー)、そして高速モードの価格が従来の3分の1に引き下げられました。Anthropic はまた、モデルの誠実さが向上し、欺瞞が減少し、ユーザーの自律性と最善の利益をよりよくサポートするようになったと述べています。

ベンチマークでは、Opus 4.8は前世代 Opus 4.7、ならびに GPT-5.5 や Gemini 3.1 Pro を多くの指標で上回っています。ただし、エージェント端末コーディングでは OpenAI のモデルが依然として優位で、Opus 4.8 は GPT-5.5 に3.6%劣ります。エージェントコーディングでは Opus 4.8 が69.2%で、Opus 4.7の64.3%、GPT-5.5の58.65%、Gemini 3.1 Proの54.2%を上回っています。

Anthropic のアライメントチームは、Opus 4.8 が向社会的特性の測定で新たな高みに達し、ユーザーの自律性と最善の利益へのサポートが向上したと報告しています。また、モデルの欺瞞率と悪用への協力率は「大幅に低く」、以前「訓練された中で最も調整されたモデル」と呼ばれた Claude Mythos Preview に近づいています。さらに、Opus 4.8 の誠実さは約4倍向上し、生成されたコードの欠陥を見逃す可能性が減少しました。

Opus シリーズの歴史を振り返ると、2025年5月の Opus 4(「世界最高のコーディングモデル」)、8月の Opus 4.1(小幅な改善)、11月の Opus 4.5(コーディングの王座を奪還)、2026年2月の Opus 4.6(適応的思考と100万トークンのコンテキストウィンドウ、ただし長文コンテキストの価格論争を引き起こす)、そして4月の Opus 4.7(ビジョン、メモリ、指示追従の改善、しかし自己矛盾した応答とパフォーマンス低下の報告があり、Anthropic 自身も「広範な能力で劣る」と評価)と続きました。Opus 4.8 のリリースは、Anthropic が最近の政策(Claude Code エージェントビューや SDK の請求分離)でユーザーを苛立たせている時期に行われました。

同時に、ネット上の噂では Anthropic が近日中に Sonnet 4.8 と Mythos 1 を発表する可能性が示唆されています。