AI News HubLIVE
站内改写

AI模型釋出追蹤:Opus 4.8的失調率與Claude Mythos預覽版相似

並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型釋出,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。

文章情報

工程師進階

要點

  • Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。
  • OpenAI的GPT-5.5 Instant減少了52.5%的幻覺,成為ChatGPT預設模型,有助於減少錯誤資訊傳播。
  • Nvidia的Nemotron 3 Nano Omni實現了多模態輸入統一,有望簡化AI代理流程並降低成本。
  • 多個模型聚焦編碼能力與安全性,如GPT-5.3-Codex和Claude Opus 4.6,表明行業競爭激烈。

為什麼重要

這條新聞值得關注,因為Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

AI實驗室正以前所未有的速度推出新模型。然而,並非每個新版本都能帶來重大突破,儘管公司的宣傳可能天花亂墜。模型的實際優勢需要在對比中顯現:競爭對手模型在哪些方面不足或領先?哪些模型擁有突出專長,哪些只是追平行業標準?ZDNET的模型釋出追蹤器幫助您瞭解各模型的相對位置,判斷是否值得深入研究。我們並非測試列表中的每個模型或更新,但會提供關鍵資訊,並在適用時附上專家測試評分。以下是2026年迄今的一些重大模型釋出及其要點,我們將隨著新模型的出現持續更新。

**Claude Opus 4.8(Anthropic,2026年5月28日)**:該模型取代Opus 4.7,價格不變,但思維模式速度更快,成本僅為前者的三分之一。Anthropic表示,Opus 4.8在編碼基準測試中得分高於4.7,但未完全超越OpenAI的GPT-5.5。同時,它“在支援使用者自主性和維護使用者最佳利益等親社會特質方面達到新高”,儘管這些定義仍顯模糊。Anthropic一直優先考慮模型安全性和可解釋性,此次釋出進一步強調了這一標準。Opus 4.7的誠實率高達92%,而4.8聲稱失調率“大幅”降低,與Mythos預覽版相當,表明模型安全標準日益提高。

**GPT-5.5 Instant(OpenAI,2026年5月5日)**:作為GPT-5.5的輕量版本,該模型比前代更簡潔,幻覺減少,事實準確性提高。OpenAI稱,在高風險提示(涵蓋醫學、法律和金融等領域)中,GPT-5.5 Instant產生的幻覺宣告比GPT-5.3 Instant少52.5%。它取代GPT-5.3成為ChatGPT的預設模型。對於大多數用於快速查詢的使用者而言,幻覺的顯著改善意味著錯誤資訊傳播的減少,尤其是在日常健康諮詢等場景中。(披露:ZDNET母公司Ziff Davis於2025年4月起訴OpenAI侵犯版權。)

**Nemotron 3 Nano Omni(Nvidia,2026年4月28日)**:這是Nvidia開源Nemotron系列的最新模型,為AI代理提供多模態輸入能力。Nvidia表示,該模型能在單一感知-行動迴圈中處理視覺、音訊和文本輸入,從而將多種能力統一到單一系統中。傳統上,代理系統需要為語音、視覺和文本使用獨立模型,導致工作流緩慢、上下文丟失和推理成本增加。Nvidia的方法有望簡化流程、減少令牌使用量,從而節省成本。該模型已在Hugging Face上開放試用。

**GPT-5.5(OpenAI,2026年4月23日,專家評分93/100)**:ZDNET測試專家David Gewirtz給予該模型A-評分,稱其“可以簡化為比GPT-5.4更好更快”。它在代理編碼、概念識別、科學研究和事實準確性方面有所提升。雖然模型本身可能並非飛躍性進步,但從5.4到5.5的快速迭代(不到兩個月)表明,代理編碼正在加速OpenAI的釋出週期。

**ChatGPT Images 2(OpenAI,2026年4月23日)**:在關閉Sora之後,OpenAI推出了Images 2。ZDNET的David Gewirtz在早期體驗後認為該模型有趣、進步巨大,且對工作實用。雖然OpenAI似乎轉向企業客戶,但Images 2的釋出表明影像生成器在企業AI中仍具重要性,尤其是在Anthropic推出Claude Design之後。

**Claude Opus 4.7(Anthropic,2026年4月16日)**:該模型在誠實性、減少諂媚和幻覺方面達到新高,並支援新的Claude Security工具。幻覺和誠實性是最難解決的問題之一,Anthropic聲稱取得顯著進展,對於重視安全的AI實驗室來說意義重大。

**Claude Mythos(預覽版)(Anthropic,2026年4月7日)**:Mythos尚未公開發布,因其被認為過於強大而帶來安全威脅,尤其是電腦保安任務能力驚人。Anthropic因此發起Project Glasswing,與Google、Nvidia、Microsoft及Palo Alto Networks等合作,保護關鍵軟體。這一事件表明,現有網路安全體系可能無法應對快速發展的模型能力,而Mythos可能只是眾多類似模型中的第一個。

**GPT-5.4(OpenAI,2026年3月5日)**:該模型專為專業工作設計,在內部測試中83%的情況下達到或超越人類專業人士。隨著AI公司聚焦企業信任和代理AI,這類在專業工作流中表現優異的模型更有可能被企業認真對待。

**Claude Opus 4.6(Anthropic,2026年2月5日)**:該模型重新定義了自主代理工作的標準,尤其在編碼方面。它能夠更好地自主處理複雜、長期執行的任務,使使用者可以更可靠地將工作流程委託給它。

**GPT-5.3-Codex(OpenAI,2026年2月5日)**:這一編碼模型據稱能中斷並重定向任務,執行時間超過一天,並能更好理解使用者意圖。OpenAI正努力追趕Anthropic在代理編碼方面的領先地位,而ZDNET專家通常更喜歡Claude Code用於“氛圍編碼”。