2026-05-29 05:11 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI模型发布追踪：Opus 4.8的失调率与Claude Mythos预览版相似

并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比，帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布，包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos（预览版）、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex，并阐述了它们的特点与意义。

来源ZDNet AI

AI实验室正以前所未有的速度推出新模型。然而，并非每个新版本都能带来重大突破，尽管公司的宣传可能天花乱坠。模型的实际优势需要在对比中显现：竞争对手模型在哪些方面不足或领先？哪些模型拥有突出专长，哪些只是追平行业标准？ZDNET的模型发布追踪器帮助您了解各模型的相对位置，判断是否值得深入研究。我们并非测试列表中的每个模型或更新，但会提供关键信息，并在适用时附上专家测试评分。以下是2026年迄今的一些重大模型发布及其要点，我们将随着新模型的出现持续更新。

Claude Opus 4.8（Anthropic，2026年5月28日）：该模型取代Opus 4.7，价格不变，但思维模式速度更快，成本仅为前者的三分之一。Anthropic表示，Opus 4.8在编码基准测试中得分高于4.7，但未完全超越OpenAI的GPT-5.5。同时，它“在支持用户自主性和维护用户最佳利益等亲社会特质方面达到新高”，尽管这些定义仍显模糊。Anthropic一直优先考虑模型安全性和可解释性，此次发布进一步强调了这一标准。Opus 4.7的诚实率高达92%，而4.8声称失调率“大幅”降低，与Mythos预览版相当，表明模型安全标准日益提高。

GPT-5.5 Instant（OpenAI，2026年5月5日）：作为GPT-5.5的轻量版本，该模型比前代更简洁，幻觉减少，事实准确性提高。OpenAI称，在高风险提示（涵盖医学、法律和金融等领域）中，GPT-5.5 Instant产生的幻觉声明比GPT-5.3 Instant少52.5%。它取代GPT-5.3成为ChatGPT的默认模型。对于大多数用于快速查询的用户而言，幻觉的显著改善意味着错误信息传播的减少，尤其是在日常健康咨询等场景中。（披露：ZDNET母公司Ziff Davis于2025年4月起诉OpenAI侵犯版权。）

Nemotron 3 Nano Omni（Nvidia，2026年4月28日）：这是Nvidia开源Nemotron系列的最新模型，为AI代理提供多模态输入能力。Nvidia表示，该模型能在单一感知-行动循环中处理视觉、音频和文本输入，从而将多种能力统一到单一系统中。传统上，代理系统需要为语音、视觉和文本使用独立模型，导致工作流缓慢、上下文丢失和推理成本增加。Nvidia的方法有望简化流程、减少令牌使用量，从而节省成本。该模型已在Hugging Face上开放试用。

GPT-5.5（OpenAI，2026年4月23日，专家评分93/100）：ZDNET测试专家David Gewirtz给予该模型A-评分，称其“可以简化为比GPT-5.4更好更快”。它在代理编码、概念识别、科学研究和事实准确性方面有所提升。虽然模型本身可能并非飞跃性进步，但从5.4到5.5的快速迭代（不到两个月）表明，代理编码正在加速OpenAI的发布周期。

ChatGPT Images 2（OpenAI，2026年4月23日）：在关闭Sora之后，OpenAI推出了Images 2。ZDNET的David Gewirtz在早期体验后认为该模型有趣、进步巨大，且对工作实用。虽然OpenAI似乎转向企业客户，但Images 2的发布表明图像生成器在企业AI中仍具重要性，尤其是在Anthropic推出Claude Design之后。

Claude Opus 4.7（Anthropic，2026年4月16日）：该模型在诚实性、减少谄媚和幻觉方面达到新高，并支持新的Claude Security工具。幻觉和诚实性是最难解决的问题之一，Anthropic声称取得显著进展，对于重视安全的AI实验室来说意义重大。

Claude Mythos（预览版）（Anthropic，2026年4月7日）：Mythos尚未公开发布，因其被认为过于强大而带来安全威胁，尤其是计算机安全任务能力惊人。Anthropic因此发起Project Glasswing，与Google、Nvidia、Microsoft及Palo Alto Networks等合作，保护关键软件。这一事件表明，现有网络安全体系可能无法应对快速发展的模型能力，而Mythos可能只是众多类似模型中的第一个。

GPT-5.4（OpenAI，2026年3月5日）：该模型专为专业工作设计，在内部测试中83%的情况下达到或超越人类专业人士。随着AI公司聚焦企业信任和代理AI，这类在专业工作流中表现优异的模型更有可能被企业认真对待。

Claude Opus 4.6（Anthropic，2026年2月5日）：该模型重新定义了自主代理工作的标准，尤其在编码方面。它能够更好地自主处理复杂、长期运行的任务，使用户可以更可靠地将工作流程委托给它。

GPT-5.3-Codex（OpenAI，2026年2月5日）：这一编码模型据称能中断并重定向任务，运行时间超过一天，并能更好理解用户意图。OpenAI正努力追赶Anthropic在代理编码方面的领先地位，而ZDNET专家通常更喜欢Claude Code用于“氛围编码”。