AI News HubLIVE
站內改寫2 分鐘閱讀

GPT 5.4 是 Codex 的一大進步

儘管在基準測試上只是漸進式改進,但 GPT 5.4 在 Codex 中的實際表現帶來了可用性、速度和上下文管理方面的實質提升,不過 Claude 在魅力上仍佔優勢。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

我遲來地評測了 GPT 5.4,但這給了我更多時間思考智慧體真正的關鍵維度。傳統基準測試將模型效能簡化為單一的正確性分數,這雖然簡單易用,但無法反映智慧體任務中正確性、易用性、速度和成本的混合需求。GPT 5.4 在紙面基準上只是增量改進,但在實踐中,這四個方面都邁出了有意義的一步。在 Codex 中,使用快速模式和高或超高努力級別時,GPT 5.4 是第一個能處理多種隨機任務的 OpenAI 智慧體。

過去幾個月我並未深耕軟體工程,主要用智慧體做小型專案、資料分析和研究任務。在原生智慧體工作流中,經常涉及 API 呼叫、後臺包管理(如 LaTeX、ffmpeg)、Git 操作、檔案管理等。在 GPT 5.4 之前,我總因“千刀萬剮”式的失敗放棄 OpenAI 的智慧體——比如 Git 操作失敗,需要我或 Claude 重置。現在這些硬傷不復存在。

GPT 5.4 的另一項微妙變化是可親性——我認為這是 OpenAI 重返智慧體競爭的主要原因——它感覺“更對味”。這與常規任務不同,涉及產品(模型外殼)如何呈現輸出和請求,以及使用者如何輕鬆上手。這歷來是 Claude 快速增長的最大優勢:不僅極其有用,還充滿魅力和娛樂價值,能留住新使用者。GPT 5.4 也有類似特質,但 Claude 的模型優勢使其更溫暖。

Claude 超級聰明,有性格,辯論中措辭巧妙,但偶爾會遺忘;而 Codex 中的 GPT 5.4 細緻、微冷、機械。我會用 Claude 處理需要觀點的事情,用 GPT 5.4 執行具體的待辦清單。GPT 5.4 的指令遵循極其精確,以至於我需要調整與模型互動的方式。Claude 在某些領域能極好地理解意圖,而 GPT 5.4 只是按指令執行。這兩種哲學對“什麼是最好的智慧體模型”有不同答案:Claude 吸引新手,GPT 5.4 則吸引希望大規模分發任務的智慧體協調大師。

除了魅力和品味,OpenAI 在可用性方面實際更優。Codex 應用很有吸引力——我並非總用它,但有時非常喜歡。我預計這些應用將迎來重大創新,最終可能像 Slack 那樣(多智慧體在監控下互相通訊)。

OpenAI 還原生提供訂閱使用者的快速模式和超大速率限制。我長期使用 Claude 的 100 美元/月和 ChatGPT 的 200 美元/月計劃,從未接近 Codex 的快速模式加超高推理努力的限額,而 Claude 偶爾會達到上限。這背後有建模原因:OpenAI 的釋出部落格顯示,每個迭代模型都更簡潔,用更少 token 達到峰值基準效能,這是推理效率的提升。這種二維(或多維)基準正是未來的方向。

來自 Cursor 的圖表(未包含全部 GPT 5.4 推理努力級別)證實了這一點,但缺少速度和價格維度。GPT 5.4 以及 OpenAI 智慧體模型的另一個優勢是更好的上下文管理。我經常使用,從未遇到上下文牆或焦慮點。推理效率讓模型在初始空上下文視窗中做更多事,壓縮時也不那麼顯眼。

我使用 Claude Opus 4.6 和 GPT 5.4 時遇到的一個問題是輕微健忘。如果在單條訊息中給出多個待辦事項(非規劃模式),它們常會遺漏,有時甚至嘗試解決舊問題。我不確定是模型還是外殼的問題,但在排隊多條訊息時,這會導致風險。

如今我根據心情大量使用 GPT 和 Claude,效率前所未有。如果 GPT 5.4 Pro 能直接整合到 Codex(如類似 \ultrathink),將是 OpenAI 的巨大差異化優勢。

總之,GPT 5.4 是一個智慧體模型,為 GPT 5.3 Codex 的堅實基礎帶來了更多簡單可用性和“智慧體性”。這是重大進步,我無比期待兩公司中誰會釋出下一個更新。從紙面上列出 GPT 5.4 的優勢——更好的頂級編碼效能、速度、上下文管理、速率限制——足以說明選擇模型是多麼微妙。我仍真心更喜歡 Claude 在基準測試之外的特質,這讓我每天先在終端輸入 claude 而不是 codex。