GPT 5.4 是 Codex 的一大进步
尽管在基准测试上只是渐进式改进,但 GPT 5.4 在 Codex 中的实际表现带来了可用性、速度和上下文管理方面的实质提升,不过 Claude 在魅力上仍占优势。
我迟来地评测了 GPT 5.4,但这给了我更多时间思考智能体真正的关键维度。传统基准测试将模型性能简化为单一的正确性分数,这虽然简单易用,但无法反映智能体任务中正确性、易用性、速度和成本的混合需求。GPT 5.4 在纸面基准上只是增量改进,但在实践中,这四个方面都迈出了有意义的一步。在 Codex 中,使用快速模式和高或超高努力级别时,GPT 5.4 是第一个能处理多种随机任务的 OpenAI 智能体。
过去几个月我并未深耕软件工程,主要用智能体做小型项目、数据分析和研究任务。在原生智能体工作流中,经常涉及 API 调用、后台包管理(如 LaTeX、ffmpeg)、Git 操作、文件管理等。在 GPT 5.4 之前,我总因“千刀万剐”式的失败放弃 OpenAI 的智能体——比如 Git 操作失败,需要我或 Claude 重置。现在这些硬伤不复存在。
GPT 5.4 的另一项微妙变化是可亲性——我认为这是 OpenAI 重返智能体竞争的主要原因——它感觉“更对味”。这与常规任务不同,涉及产品(模型外壳)如何呈现输出和请求,以及用户如何轻松上手。这历来是 Claude 快速增长的最大优势:不仅极其有用,还充满魅力和娱乐价值,能留住新用户。GPT 5.4 也有类似特质,但 Claude 的模型优势使其更温暖。
Claude 超级聪明,有性格,辩论中措辞巧妙,但偶尔会遗忘;而 Codex 中的 GPT 5.4 细致、微冷、机械。我会用 Claude 处理需要观点的事情,用 GPT 5.4 执行具体的待办清单。GPT 5.4 的指令遵循极其精确,以至于我需要调整与模型互动的方式。Claude 在某些领域能极好地理解意图,而 GPT 5.4 只是按指令执行。这两种哲学对“什么是最好的智能体模型”有不同答案:Claude 吸引新手,GPT 5.4 则吸引希望大规模分发任务的智能体协调大师。
除了魅力和品味,OpenAI 在可用性方面实际更优。Codex 应用很有吸引力——我并非总用它,但有时非常喜欢。我预计这些应用将迎来重大创新,最终可能像 Slack 那样(多智能体在监控下互相通信)。
OpenAI 还原生提供订阅用户的快速模式和超大速率限制。我长期使用 Claude 的 100 美元/月和 ChatGPT 的 200 美元/月计划,从未接近 Codex 的快速模式加超高推理努力的限额,而 Claude 偶尔会达到上限。这背后有建模原因:OpenAI 的发布博客显示,每个迭代模型都更简洁,用更少 token 达到峰值基准性能,这是推理效率的提升。这种二维(或多维)基准正是未来的方向。
来自 Cursor 的图表(未包含全部 GPT 5.4 推理努力级别)证实了这一点,但缺少速度和价格维度。GPT 5.4 以及 OpenAI 智能体模型的另一个优势是更好的上下文管理。我经常使用,从未遇到上下文墙或焦虑点。推理效率让模型在初始空上下文窗口中做更多事,压缩时也不那么显眼。
我使用 Claude Opus 4.6 和 GPT 5.4 时遇到的一个问题是轻微健忘。如果在单条消息中给出多个待办事项(非规划模式),它们常会遗漏,有时甚至尝试解决旧问题。我不确定是模型还是外壳的问题,但在排队多条消息时,这会导致风险。
如今我根据心情大量使用 GPT 和 Claude,效率前所未有。如果 GPT 5.4 Pro 能直接集成到 Codex(如类似 \ultrathink),将是 OpenAI 的巨大差异化优势。
总之,GPT 5.4 是一个智能体模型,为 GPT 5.3 Codex 的坚实基础带来了更多简单可用性和“智能体性”。这是重大进步,我无比期待两公司中谁会发布下一个更新。从纸面上列出 GPT 5.4 的优势——更好的顶级编码性能、速度、上下文管理、速率限制——足以说明选择模型是多么微妙。我仍真心更喜欢 Claude 在基准测试之外的特质,这让我每天先在终端输入 claude 而不是 codex。