2026-03-18 21:02 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

GPT 5.4 是 Codex 的一大进步

尽管在基准测试上只是渐进式改进，但 GPT 5.4 在 Codex 中的实际表现带来了可用性、速度和上下文管理方面的实质提升，不过 Claude 在魅力上仍占优势。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

我迟来地评测了 GPT 5.4，但这给了我更多时间思考智能体真正的关键维度。传统基准测试将模型性能简化为单一的正确性分数，这虽然简单易用，但无法反映智能体任务中正确性、易用性、速度和成本的混合需求。GPT 5.4 在纸面基准上只是增量改进，但在实践中，这四个方面都迈出了有意义的一步。在 Codex 中，使用快速模式和高或超高努力级别时，GPT 5.4 是第一个能处理多种随机任务的 OpenAI 智能体。

过去几个月我并未深耕软件工程，主要用智能体做小型项目、数据分析和研究任务。在原生智能体工作流中，经常涉及 API 调用、后台包管理（如 LaTeX、ffmpeg）、Git 操作、文件管理等。在 GPT 5.4 之前，我总因“千刀万剐”式的失败放弃 OpenAI 的智能体——比如 Git 操作失败，需要我或 Claude 重置。现在这些硬伤不复存在。

GPT 5.4 的另一项微妙变化是可亲性——我认为这是 OpenAI 重返智能体竞争的主要原因——它感觉“更对味”。这与常规任务不同，涉及产品（模型外壳）如何呈现输出和请求，以及用户如何轻松上手。这历来是 Claude 快速增长的最大优势：不仅极其有用，还充满魅力和娱乐价值，能留住新用户。GPT 5.4 也有类似特质，但 Claude 的模型优势使其更温暖。

Claude 超级聪明，有性格，辩论中措辞巧妙，但偶尔会遗忘；而 Codex 中的 GPT 5.4 细致、微冷、机械。我会用 Claude 处理需要观点的事情，用 GPT 5.4 执行具体的待办清单。GPT 5.4 的指令遵循极其精确，以至于我需要调整与模型互动的方式。Claude 在某些领域能极好地理解意图，而 GPT 5.4 只是按指令执行。这两种哲学对“什么是最好的智能体模型”有不同答案：Claude 吸引新手，GPT 5.4 则吸引希望大规模分发任务的智能体协调大师。

除了魅力和品味，OpenAI 在可用性方面实际更优。Codex 应用很有吸引力——我并非总用它，但有时非常喜欢。我预计这些应用将迎来重大创新，最终可能像 Slack 那样（多智能体在监控下互相通信）。

OpenAI 还原生提供订阅用户的快速模式和超大速率限制。我长期使用 Claude 的 100 美元/月和 ChatGPT 的 200 美元/月计划，从未接近 Codex 的快速模式加超高推理努力的限额，而 Claude 偶尔会达到上限。这背后有建模原因：OpenAI 的发布博客显示，每个迭代模型都更简洁，用更少 token 达到峰值基准性能，这是推理效率的提升。这种二维（或多维）基准正是未来的方向。

来自 Cursor 的图表（未包含全部 GPT 5.4 推理努力级别）证实了这一点，但缺少速度和价格维度。GPT 5.4 以及 OpenAI 智能体模型的另一个优势是更好的上下文管理。我经常使用，从未遇到上下文墙或焦虑点。推理效率让模型在初始空上下文窗口中做更多事，压缩时也不那么显眼。

我使用 Claude Opus 4.6 和 GPT 5.4 时遇到的一个问题是轻微健忘。如果在单条消息中给出多个待办事项（非规划模式），它们常会遗漏，有时甚至尝试解决旧问题。我不确定是模型还是外壳的问题，但在排队多条消息时，这会导致风险。

如今我根据心情大量使用 GPT 和 Claude，效率前所未有。如果 GPT 5.4 Pro 能直接集成到 Codex（如类似 \ultrathink），将是 OpenAI 的巨大差异化优势。

总之，GPT 5.4 是一个智能体模型，为 GPT 5.3 Codex 的坚实基础带来了更多简单可用性和“智能体性”。这是重大进步，我无比期待两公司中谁会发布下一个更新。从纸面上列出 GPT 5.4 的优势——更好的顶级编码性能、速度、上下文管理、速率限制——足以说明选择模型是多么微妙。我仍真心更喜欢 Claude 在基准测试之外的特质，这让我每天先在终端输入 claude 而不是 codex。