AI News HubLIVE
站内改写3 分で読了

Claude CodeとCodexがAIエージェントを改善するために使用するエンジニアリングプラクティス

この記事では、Claude CodeやCodexなどのコーディングエージェントが、AIエージェントの最適化において、障害モード分析やアドホックな評価といった一般的なエンジニアリングプラクティスを自律的に実行し、専用ツールなしで改善を実現することを示す実験について説明します。

ソースHacker News AI著者: anndvision

タイトル:Claude CodeとCodexがAIエージェントを改善するために使用するエンジニアリングプラクティス

著者:Andrew Jesson | 2026年4月24日

コーディングエージェントは、AIエージェントの改善を求められると、一般的なエンジニアリングプラクティスを実行します。それらは、障害モード分析、評価、プロンプト最適化のための専用ツールを取って代わるのでしょうか?

コーディングエージェントに、シミュレートされたエージェントアプリケーション、100のベースライントレース、最適化するメトリックを与えると、改善を出荷します。Claude CodeとCodexの両方がこれを行います。私は、その過程で何を行っているのかを観察することに興味がありました。

実験設定:Claude CodeとCodexに、5つのシミュレートされたエージェントアプリケーションを最適化するように指示し、コンテナ内のエージェントCLIのみを変更しました。各アプリケーションについて、初期プロンプトとモデル(gpt-5.4-mini)を使用して、最大100の異なるタスクでベースラインエージェントを実行しました。結果のトレースは、アプリケーション固有のフィードバックでスコアリングされました。最適化タスクは、ベースラインエージェントのプロンプトを変更したり、同程度の価格帯の異なるモデルを選択したりして、改善案を提案することでした。最適化エージェント(Claude CodeまたはCodex)は、それらのトレース、フィードバック、ベースライン設定のコピー、およびタスクを説明するスキルファイルにアクセスできるコンテナに配置されました。トレースとフィードバックを分析し、1つ以上の新しいモデル-プロンプトバリアントをエージェント設定に書き込み、終了しました。検証の結果、両方のコーディングエージェントがすべてのアプリケーションでベースラインに一致またはそれを上回る新しいバリアントを出荷したことがわかりました。

どのようなエンジニアリングプラクティスを使用しているのでしょうか?両方のコーディングエージェントは同じスキルファイルを使用しており、アプリケーション名、メトリック、利用可能なモデル、データレイアウト、効率化のためのいくつかのレシピ、および調査→バリアント追加→テスト→反復という4つのポイントの方法論が含まれています。スキルファイルは、障害パターンを抽象化する方法や改善を検証する方法については沈黙しています。両方のエージェントがそのギャップを埋めます。ベースラインのトレースとフィードバックを読み取り、生の行からいくつかの障害モードを抽象化し、2〜4つのプロンプトバリアントを作成し、いくつかの推論を実行し、新しい出力を分析して終了します。

障害モード分析:推論とフィードバックのデータセットから、「モデルがMISCを過剰に抽出する(それをキャッチオールとして扱うため)」などのパターンを特定します。スキルファイルは、JSONLから失敗行を投影し、それらを名前付きパターンに抽象化するという2つの前提条件をエージェントに任せています。両方のエージェントは同じレシピに収束しました。フィードバックから失敗したtarget_idをgrepし、各IDを推論行にgrepして最後の行を取得します。失敗行が投影されると、両方のエージェントは複数のトレースにわたって抽象化できます。例えば、名前付きエンティティ認識タスクでは、エージェントは過剰抽出、エンティティ境界の混乱、誤分類などの障害モードを特定しました。

さらに、コーディングエージェントはバグ発見も行います——「モデルがこの種類の間違いをする」だけでなく、「シミュレーターがテスト時に異常な動作をする」といった深層の問題も発見します。

これらの観察は、エージェント最適化がより自動化されるにつれて、専用ツールの役割と形状を再考するきっかけとなりました。これが、私が「ハーネスアトリビューション」と呼ぶプロジェクトを開始した理由でもあります。この投稿はその最初の探求です。