AI News HubLIVE
サイト内リライト3 分で読了

GPT 5.4はCodexにとって大きな一歩

ベンチマークでは漸進的な改善に過ぎないが、Codex上のGPT 5.4は実用面でユーザビリティ、速度、コンテキスト管理において真の向上をもたらす。ただし、魅力ではClaudeが依然として勝る。

ソースInterconnects (Nathan Lambert)著者: Nathan Lambert

このモデルレビューは遅れましたが、その間にエージェントにとって重要な軸を考える時間が取れました。従来のベンチマークは性能を正確性の単一スコアに還元しますが、これは単純で解釈しやすいという利点がありました。しかし、エージェントタスクは正確性、使いやすさ、速度、コストが混在するため、現状のベンチマークは実際の感覚と一致しません。GPT 5.4は紙面上では漸進的な改善ですが、実践ではこれら四つの特性すべてにおいて有意義な一歩です。Codex上で常に高速モードかつ高または超高努力設定で使うと、GPT 5.4はOpenAI初の、様々なランダムなタスクを処理できるエージェントと感じます。

ここ数ヶ月ソフトウェアエンジニアリングに深く関わっていなかったため、エージェントでの作業は主に小規模プロジェクト、データ分析、リサーチタスクでした。エージェントネイティブなワークフローでは、API、バックグラウンドパッケージ(LaTeX、ffmpegなど)、Git操作、ファイル管理、検索が頻繁に発生します。GPT 5.4以前は、OpenAIのエージェントは「千もの小さな不満」で挫折していました。Git操作に失敗し、私やClaudeがリセットする必要があるといった具合です。そうした硬いエッジはもうありません。

GPT 5.4の親しみやすさのもう一つの変化は——OpenAIがエージェント戦争に復帰した最大の理由だと思います——「より正しい」と感じることです。これは製品(モデルハーネス)が出力や要求をどのようにユーザーに提示するか、どれだけ簡単に作業に没頭できるかに関わります。これはClaudeが急成長した最大の強みです。Claudeは非常に有用であるだけでなく、魅力とエンターテイメント性があり、新しいユーザーを引き付けます。GPT 5.4にもその要素はありますが、Claudeのモデルは依然としてより温かみを感じさせます。

Claudeは超スマートで、個性があり、議論での言い回しが巧みですが、時々忘れっぽい。一方、CodexのGPT 5.4は緻密で少し冷たく、深く機械的です。私は意見が必要なことにはClaudeを、非常に具体的なTODOリストの処理にはGPT 5.4を使います。GPT 5.4の指示追従性は非常に正確で、Claudeと過ごした時間の後に異なる対話方法を学ぶ必要があります。Claudeはある領域では意図を優れてモデル化しますが、GPT 5.4は言われたことをただ実行します。これらは「エージェントに最適なモデルとは何か」に対する非常に異なる哲学であり、Claudeは初心者に、GPT 5.4は分散タスクにAI軍団を投入するマスターエージェントに訴求するでしょう。

魅力や趣味を別にすれば、ユーザビリティの多くの点でOpenAI側が優れています。Codexアプリは魅力的で、常に使うわけではないが、時々非常に気に入っています。これらのアプリには大きな革新が訪れると予想しており、最終的にはSlackのような形になるでしょう(複数のエージェントが私の監視下で通信する場合)。

OpenAIはまた、サブスクリプションで高速モードと非常に大きなレート制限をネイティブ提供しています。私は長い間、Claudeの$100/月プランとChatGPTの$200/月プランを使っていますが、高速モードと超高推論努力のCodexの制限に達したことは一度もなく、Claudeでは時々制限に当たります。これにはモデリング上の理由があります。OpenAIのリリースブログでは、各反復モデルがピークベンチマーク性能に要するトークン数を大幅に削減していることが示されており、これは推論効率の測定です。この二次元(または多次元)ベンチマークこそ、世界が向かう方向です。

Cursorからのプロット(GPT 5.4の全推論努力レベルは含まれていません)はこの点を裏付けていますが、速度と価格が欠けています。GPT 5.4とOpenAIのエージェントモデルの最終的な利点は、より優れたコンテキスト管理です。定期的に使うようになってから、コンテキストの壁や不安を感じたことはありません。上記の推論効率により、モデルは初期の空のコンテキストウィンドウでより多くのことを行え、圧縮時も目立ちません。

Claude Opus 4.6とGPT 5.4の両方に共通する問題は、軽度の忘れっぽさです。計画モード以外で複数のTODOを一回のメッセージで与えると、しばしば落としたり、以前の問題を解決しようとしたりします。モデルかハーネスのどちらが原因かはわかりませんが、作業中にメッセージをキューイングすると、単純なケース以外ではリスクが高いです。

最近は気分に応じてGPTとClaudeの両方を多用しており、かつてないほど多くのことを成し遂げています。GPT 5.4 ProがCodexと直接統合されれば(例:\ultrathinkのように)、OpenAIにとって大きな差別化要因となるでしょう。

総合すると、GPT 5.4はエージェントモデルとして、GPT 5.3 Codexの非常に強固なソフトウェア基盤に、はるかに高い使いやすさと「エージェント性」をもたらします。これは大きな一歩であり、次にどちらの企業がアップデートをリリースするか、非常に楽しみです。紙面上でGPT 5.4の強み——優れたコーディング性能、速度、コンテキスト管理、レート制限——を列挙すると、モデル選択がどれほど微妙かが分かります。私は今でも、ベンチマークには決して現れない理由でClaudeを少し多く楽しんでいます。そのため、一日の始まりにターミナルにcodexではなくclaudeと打ち込むのです。