2026-03-18 21:02 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GPT 5.4 是 Codex 的一大進步

儘管在基準測試上只是漸進式改進，但 GPT 5.4 在 Codex 中的實際表現帶來了可用性、速度和上下文管理方面的實質提升，不過 Claude 在魅力上仍佔優勢。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

我遲來地評測了 GPT 5.4，但這給了我更多時間思考智慧體真正的關鍵維度。傳統基準測試將模型效能簡化為單一的正確性分數，這雖然簡單易用，但無法反映智慧體任務中正確性、易用性、速度和成本的混合需求。GPT 5.4 在紙面基準上只是增量改進，但在實踐中，這四個方面都邁出了有意義的一步。在 Codex 中，使用快速模式和高或超高努力級別時，GPT 5.4 是第一個能處理多種隨機任務的 OpenAI 智慧體。

過去幾個月我並未深耕軟體工程，主要用智慧體做小型專案、資料分析和研究任務。在原生智慧體工作流中，經常涉及 API 呼叫、後臺包管理（如 LaTeX、ffmpeg）、Git 操作、檔案管理等。在 GPT 5.4 之前，我總因“千刀萬剮”式的失敗放棄 OpenAI 的智慧體——比如 Git 操作失敗，需要我或 Claude 重置。現在這些硬傷不復存在。

GPT 5.4 的另一項微妙變化是可親性——我認為這是 OpenAI 重返智慧體競爭的主要原因——它感覺“更對味”。這與常規任務不同，涉及產品（模型外殼）如何呈現輸出和請求，以及使用者如何輕鬆上手。這歷來是 Claude 快速增長的最大優勢：不僅極其有用，還充滿魅力和娛樂價值，能留住新使用者。GPT 5.4 也有類似特質，但 Claude 的模型優勢使其更溫暖。

Claude 超級聰明，有性格，辯論中措辭巧妙，但偶爾會遺忘；而 Codex 中的 GPT 5.4 細緻、微冷、機械。我會用 Claude 處理需要觀點的事情，用 GPT 5.4 執行具體的待辦清單。GPT 5.4 的指令遵循極其精確，以至於我需要調整與模型互動的方式。Claude 在某些領域能極好地理解意圖，而 GPT 5.4 只是按指令執行。這兩種哲學對“什麼是最好的智慧體模型”有不同答案：Claude 吸引新手，GPT 5.4 則吸引希望大規模分發任務的智慧體協調大師。

除了魅力和品味，OpenAI 在可用性方面實際更優。Codex 應用很有吸引力——我並非總用它，但有時非常喜歡。我預計這些應用將迎來重大創新，最終可能像 Slack 那樣（多智慧體在監控下互相通訊）。

OpenAI 還原生提供訂閱使用者的快速模式和超大速率限制。我長期使用 Claude 的 100 美元/月和 ChatGPT 的 200 美元/月計劃，從未接近 Codex 的快速模式加超高推理努力的限額，而 Claude 偶爾會達到上限。這背後有建模原因：OpenAI 的釋出部落格顯示，每個迭代模型都更簡潔，用更少 token 達到峰值基準效能，這是推理效率的提升。這種二維（或多維）基準正是未來的方向。

來自 Cursor 的圖表（未包含全部 GPT 5.4 推理努力級別）證實了這一點，但缺少速度和價格維度。GPT 5.4 以及 OpenAI 智慧體模型的另一個優勢是更好的上下文管理。我經常使用，從未遇到上下文牆或焦慮點。推理效率讓模型在初始空上下文視窗中做更多事，壓縮時也不那麼顯眼。

我使用 Claude Opus 4.6 和 GPT 5.4 時遇到的一個問題是輕微健忘。如果在單條訊息中給出多個待辦事項（非規劃模式），它們常會遺漏，有時甚至嘗試解決舊問題。我不確定是模型還是外殼的問題，但在排隊多條訊息時，這會導致風險。

如今我根據心情大量使用 GPT 和 Claude，效率前所未有。如果 GPT 5.4 Pro 能直接整合到 Codex（如類似 \ultrathink），將是 OpenAI 的巨大差異化優勢。

總之，GPT 5.4 是一個智慧體模型，為 GPT 5.3 Codex 的堅實基礎帶來了更多簡單可用性和“智慧體性”。這是重大進步，我無比期待兩公司中誰會釋出下一個更新。從紙面上列出 GPT 5.4 的優勢——更好的頂級編碼效能、速度、上下文管理、速率限制——足以說明選擇模型是多麼微妙。我仍真心更喜歡 Claude 在基準測試之外的特質，這讓我每天先在終端輸入 claude 而不是 codex。