AI News HubLIVE
站内改写

AI模型发布追踪:Opus 4.8的失调率与Claude Mythos预览版相似

并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比,帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(预览版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,并阐述了它们的特点与意义。

文章情报

工程师进阶

要点

  • Anthropic的Opus 4.8以更低价格提供更快思维模式,声称失调率低于Opus 4.7,与Mythos预览版相当。
  • OpenAI的GPT-5.5 Instant减少了52.5%的幻觉,成为ChatGPT默认模型,有助于减少错误信息传播。
  • Nvidia的Nemotron 3 Nano Omni实现了多模态输入统一,有望简化AI代理流程并降低成本。
  • 多个模型聚焦编码能力与安全性,如GPT-5.3-Codex和Claude Opus 4.6,表明行业竞争激烈。

为什么重要

这条新闻值得关注,因为Anthropic的Opus 4.8以更低价格提供更快思维模式,声称失调率低于Opus 4.7,与Mythos预览版相当。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

AI实验室正以前所未有的速度推出新模型。然而,并非每个新版本都能带来重大突破,尽管公司的宣传可能天花乱坠。模型的实际优势需要在对比中显现:竞争对手模型在哪些方面不足或领先?哪些模型拥有突出专长,哪些只是追平行业标准?ZDNET的模型发布追踪器帮助您了解各模型的相对位置,判断是否值得深入研究。我们并非测试列表中的每个模型或更新,但会提供关键信息,并在适用时附上专家测试评分。以下是2026年迄今的一些重大模型发布及其要点,我们将随着新模型的出现持续更新。

**Claude Opus 4.8(Anthropic,2026年5月28日)**:该模型取代Opus 4.7,价格不变,但思维模式速度更快,成本仅为前者的三分之一。Anthropic表示,Opus 4.8在编码基准测试中得分高于4.7,但未完全超越OpenAI的GPT-5.5。同时,它“在支持用户自主性和维护用户最佳利益等亲社会特质方面达到新高”,尽管这些定义仍显模糊。Anthropic一直优先考虑模型安全性和可解释性,此次发布进一步强调了这一标准。Opus 4.7的诚实率高达92%,而4.8声称失调率“大幅”降低,与Mythos预览版相当,表明模型安全标准日益提高。

**GPT-5.5 Instant(OpenAI,2026年5月5日)**:作为GPT-5.5的轻量版本,该模型比前代更简洁,幻觉减少,事实准确性提高。OpenAI称,在高风险提示(涵盖医学、法律和金融等领域)中,GPT-5.5 Instant产生的幻觉声明比GPT-5.3 Instant少52.5%。它取代GPT-5.3成为ChatGPT的默认模型。对于大多数用于快速查询的用户而言,幻觉的显著改善意味着错误信息传播的减少,尤其是在日常健康咨询等场景中。(披露:ZDNET母公司Ziff Davis于2025年4月起诉OpenAI侵犯版权。)

**Nemotron 3 Nano Omni(Nvidia,2026年4月28日)**:这是Nvidia开源Nemotron系列的最新模型,为AI代理提供多模态输入能力。Nvidia表示,该模型能在单一感知-行动循环中处理视觉、音频和文本输入,从而将多种能力统一到单一系统中。传统上,代理系统需要为语音、视觉和文本使用独立模型,导致工作流缓慢、上下文丢失和推理成本增加。Nvidia的方法有望简化流程、减少令牌使用量,从而节省成本。该模型已在Hugging Face上开放试用。

**GPT-5.5(OpenAI,2026年4月23日,专家评分93/100)**:ZDNET测试专家David Gewirtz给予该模型A-评分,称其“可以简化为比GPT-5.4更好更快”。它在代理编码、概念识别、科学研究和事实准确性方面有所提升。虽然模型本身可能并非飞跃性进步,但从5.4到5.5的快速迭代(不到两个月)表明,代理编码正在加速OpenAI的发布周期。

**ChatGPT Images 2(OpenAI,2026年4月23日)**:在关闭Sora之后,OpenAI推出了Images 2。ZDNET的David Gewirtz在早期体验后认为该模型有趣、进步巨大,且对工作实用。虽然OpenAI似乎转向企业客户,但Images 2的发布表明图像生成器在企业AI中仍具重要性,尤其是在Anthropic推出Claude Design之后。

**Claude Opus 4.7(Anthropic,2026年4月16日)**:该模型在诚实性、减少谄媚和幻觉方面达到新高,并支持新的Claude Security工具。幻觉和诚实性是最难解决的问题之一,Anthropic声称取得显著进展,对于重视安全的AI实验室来说意义重大。

**Claude Mythos(预览版)(Anthropic,2026年4月7日)**:Mythos尚未公开发布,因其被认为过于强大而带来安全威胁,尤其是计算机安全任务能力惊人。Anthropic因此发起Project Glasswing,与Google、Nvidia、Microsoft及Palo Alto Networks等合作,保护关键软件。这一事件表明,现有网络安全体系可能无法应对快速发展的模型能力,而Mythos可能只是众多类似模型中的第一个。

**GPT-5.4(OpenAI,2026年3月5日)**:该模型专为专业工作设计,在内部测试中83%的情况下达到或超越人类专业人士。随着AI公司聚焦企业信任和代理AI,这类在专业工作流中表现优异的模型更有可能被企业认真对待。

**Claude Opus 4.6(Anthropic,2026年2月5日)**:该模型重新定义了自主代理工作的标准,尤其在编码方面。它能够更好地自主处理复杂、长期运行的任务,使用户可以更可靠地将工作流程委托给它。

**GPT-5.3-Codex(OpenAI,2026年2月5日)**:这一编码模型据称能中断并重定向任务,运行时间超过一天,并能更好理解用户意图。OpenAI正努力追赶Anthropic在代理编码方面的领先地位,而ZDNET专家通常更喜欢Claude Code用于“氛围编码”。