AIモデルリリーストラッカー:Opus 4.8のミスアライメント率はClaude Mythosプレビューと同程度
すべての新モデルが宣伝通りとは限りません。本トラッカーは各リリースを同種モデルと比較し、どのモデルが時間を費やす価値があるかを示します。この記事では、Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(プレビュー)、GPT-5.4、Claude Opus 4.6、GPT-5.3-Codexなど、2026年現在の主要なモデルリリースとその特徴、重要性をまとめています。
記事インテリジェンス
要点
- AnthropicのOpus 4.8は低コストで高速な思考モードを提供し、ミスアライメント率がOpus 4.7より低く、Mythosプレビューと同等と主張。
- OpenAIのGPT-5.5 Instantは幻覚を52.5%削減し、ChatGPTのデフォルトモデルとなり、誤情報の拡散防止に貢献。
- NvidiaのNemotron 3 Nano Omniはマルチモーダル入力を統合し、AIエージェントのワークフローを合理化しコスト削減の可能性。
- GPT-5.3-CodexやClaude Opus 4.6など、コーディング能力と安全性に焦点を当てたモデルが多く、激しい競争を示す。
重要な理由
このニュースが重要なのは、AnthropicのOpus 4.8は低コストで高速な思考モードを提供し、ミスアライメント率がOpus 4.7より低く、Mythosプレビューと同等と主張ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
AIラボは新モデルを絶え間なくリリースしています。しかし、すべての新バージョンが大きな進歩をもたらすとは限らず、企業のPRが華美に語ることもあります。モデルの強みは比較の中で明らかになります。競合モデルはどこで不足し、どこで優れているのか?どのモデルが卓越した専門性を持ち、どれが業界標準に追いついただけなのか?ZDNETのモデルリリーストラッカーは、モデル同士の相対的な位置づけを理解し、深掘りする価値があるかどうかを判断するのに役立ちます。リスト内のすべてのモデルやアップデートをテストしているわけではありませんが、知っておくべき重要な要素を常に含め、該当する場合は実践的な専門家テストと専門家スコアも提供します。以下は2026年現在の主要なモデルリリースとそのポイントです。注目すべき新モデルが登場するたびにこのリストを更新します。
**Claude Opus 4.8(Anthropic、2026年5月28日)**:Opus 4.7を同じ価格で置き換え、Opus 4.8はより高速な思考モードを以前のバージョンの3分の1のコストで提供するとAnthropicは述べています。同社のモデルの多くと同様、4.8はコーディング能力を優先し、2つのコーディングベンチマークで4.7を上回るものの、OpenAIのGPT-5.5を完全には打ち負かしていません。また、「ユーザーの自律性を支援し、ユーザーの最善の利益に基づいて行動するなどの向社会性の指標で新たな高みに達した」と同社はリリースで述べていますが、その定義は依然として曖昧です。Anthropicは常にモデルの安全性と解釈可能性を優先してきましたが、今回のリリースでその基準をさらに強調しているようです。Opus 4.7は92%の正直さを誇り、追従や幻覚も全体的に少なかったとされています。4.8は4.7よりも「大幅に」低いミスアライメント率を示すと主張しており、特にMythosプレビューと比較したことから、モデル安全性の基準がますます高まっていることを示しています。
**GPT-5.5 Instant(OpenAI、2026年5月5日)**:OpenAIは発表で、GPT-5.5の軽量版は前身のGPT-5.3 Instantよりも簡潔であると述べました。また、幻覚の減少と事実性の向上を謳い、「GPT-5.5 Instantは、医学、法律、金融などの分野をカバーする高リスクなプロンプトにおいて、GPT-5.3 Instantよりも52.5%少ない幻覚的な主張を生成した」としています。GPT-5.5 InstantはChatGPTのデフォルトモデルとしてGPT-5.3を置き換えます。新しいAIモデルがより効率的で使いやすくなり、作話が減ることが期待されますが、ほとんどの人が高速クエリに使用するモデルでの幻覚の大幅な改善は、大衆の間での誤情報の拡散を減らす可能性があります。特に多くの人が日常的な健康質問にChatGPTを使用していることを考えると、これは極めて重要です。(開示:ZDNETの親会社であるZiff Davisは、2025年4月にOpenAIを提訴し、AIシステムのトレーニングと運用においてZiff Davisの著作権を侵害したと主張しています。)
**Nemotron 3 Nano Omni(Nvidia、2026年4月28日)**:NvidiaのオープンNemotronファミリーの最新モデルで、エージェントにマルチモーダル入力を提供します。つまり、Nvidiaによれば、「視覚、音声、テキストの入力を単一の共有された知覚から行動へのループ内で認識し推論する」ことができ、複数の機能を単一システムに統合します。通常、エージェントシステムは音声、視覚、テキストに別々のモデルを使用する必要があり、文書、ビデオ、オーディオ間を行き来してマルチステップタスクを完了します。これによりワークフローが遅くなり、エージェントが収集するコンテキストが損なわれ、推論コストが増大します。Nvidiaのアプローチが機能すれば、このプロセスを合理化し、トークン使用量を削減してコストを節約できます。Hugging Faceで試用可能です。
**GPT-5.5(OpenAI、2026年4月23日、専門家スコア93/100)**:ZDNETのテスト担当デイビッド・ゲウィルツ氏はGPT-5.5にA-評価を与えましたが、「控えめに言ってもGPT-5.4より優れていて高速」であり、これは新モデルに期待される最低限の基準であると述べています。具体的には、エージェンティックコーディング、概念の明確な識別、科学研究、事実の正確性が向上しました。モデル自体は前身から飛躍的な進歩ではないかもしれませんが、5.4から5.5への迅速なターンアラウンド(2か月未満)は、エージェンティックコーディングがOpenAIのモデルリリースサイクルをいかに加速させているかを示しています。デイビッド・ゲウィルツ氏が分析するように、同社はAIを使ってAIを構築する他のフロンティアラボと同様、指数関数的に増加するペースでアップデートをリリースしています。
**ChatGPT Images 2(OpenAI、2026年4月23日)**:生成ビデオモデルとソーシャルプラットフォームであるSoraを廃止した直後、OpenAIはやや混乱を招く形でImages 2を発表しました。ZDNETのモデルテスターであるデイビッド・ゲウィルツ氏は、リリース前にImages 2を早期に試し、感銘を受けました。正式な専門家スコアは付けていませんが、楽しく、大きな飛躍であり、仕事に実際に役立つと述べています。OpenAIは、Anthropicに有利なエンタープライズ契約を奪われ、Soraを廃止して消費者向けAI製品から撤退しているように見えました。それでもOpenAIがその方向転換の中でImages 2をリリースしたことは、特にAnthropicのClaude Designを受けて、画像生成器がエンタープライズAIにとって十分に関連性があると見なしていることを示しています。
**Claude Opus 4.7(Anthropic、2026年4月16日)**:Opus 4.6から比較的迅速に登場したこのモデルは、正直さの新たな高み、追従と幻覚の減少を誇ります。また、サイバーセキュリティに優れているようで、モデル自体の直後にリリースされた新しいClaude Securityを支えていますが、多くの人が推測したようにMythosではありません。幻覚と正直さは、最高のモデルでさえ悩まされている最も困難で解決が難しい問題の一部です。Anthropicがこれらの分野でこれほど大きな進歩を主張することは、安全性を真剣に考えるAIラボにとって小さな偉業ではありません。
**Claude Mythos(プレビュー)(Anthropic、2026年4月7日)**:これは難しいものです。Mythosは実際には一般公開されていません。Anthropicは、新しい汎用モデルを通常通りリリースするには強力すぎると位置づけ、かなりのメディアストームを引き起こしました。このモデルは以前のAnthropicモデルからのステップチェンジであるようですが、同社は特にセキュリティ上の脅威に警鐘を鳴らし、「コンピュータセキュリティタスクにおいて驚くべき能力を発揮する」と述べています。これを受けてAnthropicは、Google、Nvidia、Microsoftなどの競合AIラボや、Palo Alto Networksなどのセキュリティ当局と協力してProject Glasswingを主導し、「世界で最も重要なソフトウェアを保護し、サイバー攻撃者に先んじるために業界全体が採用する必要のある慣行に備える」としています。Anthropicのガイダンスを信じるなら、Mythosが世界のソフトウェアに重大な脅威をもたらすほどであり、一部の選ばれたパートナーだけがアクセスできるということは、現状のサイバーセキュリティ体制は急速に進化するモデル能力に対応できていない可能性があります。Mythosは同レベルの唯一のモデルではないかもしれませんが、他のラボが同様のブレークスルーを達成したときに最初に登場する多くのモデルの1つに過ぎません。今のところ、リリースから数週間で、Mythosは大量のソフトウェアバグの発見に貢献しています。
**GPT-5.4(OpenAI、2026年3月5日)**:OpenAIは、GPT-5.2からわずか3か月後にリリースされたこの新モデルを、専門的な仕事向けに特別に設計されたものとして位置づけました。同社の独自テスト(第三者による検証までは常に割り引いて聞くべき)によると、GPT-5.4は83%の確率で人間の専門家に匹敵するかそれを上回ります。AI企業がエンタープライズの信頼(と契約)の獲得に注力し、エージェンティックAIの可能性を称賛する中で、リスク、遅延、 prohibitive に高いコストを最小限に抑えて複雑な作業関連タスクを処理できるモデルが必要とされています。専門的なワークフローで能力を発揮するモデルの進歩は、AI導入に苦戦する企業に真剣に受け止められる可能性が高くなりますが、シームレスな統合は保証されていません。
**Claude Opus 4.6(Anthropic、2026年2月5日)**:このモデルは、自律的なエージェンティックワーク、特にコーディングの基準をすぐに再定義しました。プログラミングタスクに特に長けたモデルを構築するAnthropicの権威を考えれば驚くことではありません。Opus 4.6は、複雑で長時間のタスク全般においても改善を示しました。Opus 4.6がタスクをよりうまく自律的に処理できるということは、ユーザーはより多くのワークフローを確実に任せられることを意味し、これは通常エージェンティックオファリングが苦手とする点です。
**GPT-5.3-Codex(OpenAI、2026年2月5日)**:この新しいコーディングモデルは、OpenAIによれば自身の構築とデバッグを支援したとされ、タスクの途中で中断して方向転換することができます。これが真実なら、複雑で変化するプロジェクトや試行錯誤が多い開発者にとって大きな恩恵です。GPT-5.3-Codexは1日以上の実行時間とユーザーの意図をよりよく把握することも誇っています。OpenAIはエージェンティックコーディングにおけるAnthropicのリードに追いつこうとしており(偶然かどうかは別として、5.3 CodexをAnthropicがOpus 4.6をリリースした同じ日に発表しました)、ZDNETの専門家はしばしばバイブコーディングにClaude Codeを好みますが、OpenAIが楽しい消費者向けツールからエンタープライズクライアントへの移行を噂されていることで、最終的にそのギャップを埋める可能性があります。