金融AIエージェントの評価構築から得た教訓
本稿では、3年間にわたって金融AIエージェントの内部評価を構築してきた著者が、絶対評価が品質閾値を超えると機能しなくなり、相対評価がより効果的であることを示す。主要な洞察として、最強のフロンティアモデルを審査員として使用し、生データへのアクセス権を与えること、エージェントと審査員の両方のばらつきを考慮すること、そして結果とともにエージェントの推論経路を評価することが挙げられる。また、既存の金融ベンチマークを批判し、内部の「調整後キャッシュフロー」評価を紹介する。
本稿の著者は、ヘッジファンドを離れて3年、LLMへのプロンプト、AIエージェントのテスト、株式調査の評価に多くの時間を費やしてきました。初期のGPT-3.5へのプロンプトから現在の先進的なエージェントやツールまで、この経験は金融とAIの両方を深く理解させ、「優れた」株式調査とは何かについての見解を形成させました。
現在公開されている「金融AI」ベンチマークのほとんどは、ニュアンスを捉えるという重要な点で失敗しています。投資においてはニュアンスが重要です。そのため、著者は独自の内部評価を構築しました。以下がこれまでの中核的な教訓です。
絶対評価は品質閾値を超えると機能しなくなる
エージェントが基本的に有能(正しい方法論を適用し、計算を正確に行い、財務的に妥当なケースを提示する)になると、絶対スコアは差別化を停止します。2つのレポートがすべてのチェックボックスを満たしていても、品質は異なる可能性があります。例えば、ある企業の分析で、一方のアナリストがマージン圧力を一時的な過剰投資と見なすのに対し、もう一方は構造的競争の証拠と見なす場合、両方とも財務的に理にかなっています。
審査員には競争が必要
重要なのは、複数のレポートが同じ答えに収束するかどうかではありません。研究が可能な結果のマップを改善し、多くの分析が見逃したシナリオを明らかにし、適切な確率重みを割り当て、オッズを動かすものを特定することです。エージェントがベースラインを一貫して上回るほど良くなると、増分パフォーマンスは絶対スコアでは観察しにくくなります。
相対評価が機能する理由
出力を並べて配置し、審査員にすべてを同時に見せてランク付けさせ、スコアを付け、違いを説明させます。これは投資家が実際に研究を評価する方法です。ポートフォリオマネージャーは複数のアナリストと話し、議論を比較します。あるアナリストが見て他のアナリストが見逃した重要な問題に気づきます。例えば、Robinhoodの予測評価では、2つのエージェントが同じ絶対スコアのモデルと予測ノートを生成しましたが、相対審査員は代替データ(X/Twitter)を使用して短期トレンドを検証した出力を好みました。
最強の審査員を使用する
深刻な研究ワークフローには、最強のフロンティアモデルを審査員として使用します。微妙な分析の弱点を特定し、洞察と冗長さを区別し、結論が財務的に妥当だが実際には役に立たない場合を認識できる必要があります。
審査員にデータアクセス権を与える
エージェントがソース文書、市場データ、X、Polymarket、代替データを使用した場合、審査員は主張を検証できる必要があります。データアクセスにより、審査員は「これは正しいか?重要なことを無視していないか?結論を誇張していないか?」と問うことができます。これはファンドマネージャーが研究を読む方法と似ており、主張が重要ならソースを確認します。
ばらつきはエージェントと審査員の両方に適用される
LLMは確率的であり、1回の実行では不十分です。各エージェント構成を少なくとも3回実行し、実行、審査員、企業、データセット全体で一貫した分離を探すことが重要です。
結果と同様に経路も評価する
最終出力の品質だけでなく、エージェントの推論経路と論理プロセスも評価します。経路はエージェントの思考方法と潜在的な仮定を明らかにします。
次のステップ:ライブ決算カバレッジ
著者は評価をライブ決算電話会議のカバレッジに拡張する計画で、これは真に自律的な研究の始まりです。
結論として、効果的な金融AIエージェント評価を構築するには、従来のベンチマークを超え、相対評価、強力な審査員、データアクセス、統計的ロバスト性を採用して、投資研究のニュアンスを捉える必要があります。