SPEAR:コード拡張エージェンティックプロンプト最適化
SPEAR(Sandboxed Prompt Engineer with Active Roll-back)は、コードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに導入した自由形式のエージェンティック最適化手法です。評価、Python、set_prompt、finishの4つのツールを備え、自律的に使用方法を決定します。特にPythonサンドボックスにより、評価データフレーム上で構造的なエラー分析(混同行列、エラークラスタリング、グループ別メトリクスなど)を実行できます。メトリクスが悪化した場合の自動ロールバックとオプションのガードメトリクス下限により、単調な改善を保証します。3つの産業用LLM-as-judgeスイート(13タスク)と7つのBBHタスク、GSM8Kで評価した結果、SPEARはすべての産業タスクで主要メトリクスにおいて勝利し、BBH-7で平均精度0.938を達成しました。アブレーション実験では、Pythonツールが最も重要な要素であることが示されました。
記事インテリジェンス
要点
- SPEARはコードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに適用し、自由形式のエージェンティック最適化を実現。
- Pythonサンドボックスにより、混同行列やエラークラスタリングなどの構造的エラー分析が可能。
- 自動ロールバックとガードメトリクスにより単調な改善を保証。
- 産業タスクと学術ベンチマークの両方で既存手法を上回る性能。
重要な理由
このニュースが重要なのは、SPEARはコードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに適用し、自由形式のエージェンティック最適化を実現ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
SPEAR(Sandboxed Prompt Engineer with Active Roll-back)は、自動プロンプトエンジニアリング(APE)にコードをアクションとして扱うパラダイム(CodeAct)を導入した、自由形式のエージェンティック最適化手法です。従来のAPEループはオプティマイザ自体を固定パイプラインとして扱っていましたが、SPEARは4つのツール(評価、Python、set_prompt、finish)を備え、それらをいつどのように使用するかを自律的に決定します。最も特徴的なツールはPythonサンドボックスであり、オプティマイザは現在の評価データフレーム上で任意のPythonコードを記述・実行し、エージェント自身が作成した構造的なエラー分析(混同行列、エラークラスタリング、グループ別メトリクス)を行います。
長期エージェントを単調改善型のオプティマイザに変換するための2つのガードレールがあります。メトリクスが後退した場合の自動ロールバックと、オプションのガードメトリクス下限です。評価は、3つの産業用LLM-as-judgeスイート(リクルーター面接、会話メモリ、クエリ洗練システムにわたる13の判定タスク)と、7つのBBHタスク、GSM8Kで実施されました。SPEARはすべての産業タスクの主要メトリクスで勝利しました(ツール選択でκ0.857 vs 0.359、フィルタ関連性でF1-macro 0.815 vs 0.763、最も難しい抽出次元でκ0.254 vs 0.218)。BBH-7ではSPEARの平均精度は0.938であり、GEPAの0.628、TextGradの0.484を大きく上回りました。
アブレーション実験により、Pythonツールが複雑な判定タスクにおいて最大の効果を持つことが示されました(5クラスのツール選択判定で削除するとκが約0.79低下、最も難しい抽出次元で約0.35低下)。その代替不可能な貢献は、長文脈LLMが生の評価データフレームから確実に抽出できないクラス対の混同行列の集約にあります。
SPEARの提案は、コード拡張エージェントによるより柔軟で強力な最適化を可能にし、自動プロンプトエンジニアリングに新たな方向性を示しています。関連コードと論文はarXivで公開されています。