構建金融AI代理評估的經驗教訓
本文作者基於三年實踐,分享了為金融AI代理構建內部評估的核心經驗:絕對評分在達到一定質量閾值後會失效,相對評分能更好地捕捉細微差別;應使用最強的前沿模型作為評判者,並賦予其原始數據訪問權限;評估結果需考慮代理和評判者的方差;路徑與結果同樣重要。文章還探討了現有金融基準的侷限性,並介紹了作者開發的調整後現金流筆記評估等內部基準。
本文字作者在離開對沖基金三年後,投入了大量時間於大型語言模型(LLM)提示、AI代理測試和股票研究評估。從早期為GPT-3.5提供提示,到如今與先進代理和工具合作,這段經歷迫使作者深入理解金融與AI,並形成了對何為“優秀”股權研究的看法。
當前大多數公開可用的“金融AI”基準存在關鍵缺陷:無法捕捉細微差別。而在投資領域,細微差別至關重要。為此,作者構建了內部評估體系,以下是核心經驗總結。
絕對評分在質量閾值後失效
當代理基本勝任(即方法論正確、計算無誤、提出財務上合理的論點)後,絕對分數便難以區分優劣。兩份報告可能都滿足所有評分標準,但質量仍存在差異。例如,對於同一公司的分析,一位分析師可能將利潤率壓力視為暫時性投資過度,而另一位則視為結構性競爭證據,兩者在財務上均合理。
評判者需要競爭
真正重要的是研究是否改善了投資者對可能結果的認知圖譜——揭示大多數分析遺漏的情景、賦予合理的概率權重,並識別可能改變勝率的因素。當一個智能體變得足夠優秀,持續超越基線時,增量性能難以通過絕對評分觀察。
相對評分有效的原因
將輸出並排呈現,讓評判者同時查看所有輸出,要求其排序、評分並解釋差異。這正是投資者評估研究的方式:比較多個分析師的論點,注意一個分析師看到的而另一個遺漏的關鍵問題。例如,在對Robinhood的預測評估中,兩個代理模型和預測筆記的絕對得分相同,但相對評判者更偏好一個使用替代數據(如X/Twitter)驗證近期趨勢的輸出。
使用最強的評判者
對於嚴肅的研究工作流程,應使用最強的前沿模型作為評判者。它需要能夠識別微弱的分析弱點,區分洞察力與冗長,並判斷結論在財務上合理但實際無用的情形。
給評判者數據訪問權限
如果代理使用了源文檔、市場數據、X、Polymarket或替代數據,評判者需要能夠驗證其主張。數據訪問使評判者能提問:“這是否正確?它是否忽略了重要信息?它是否誇大了結論?” 這類似於基金經理閲讀研究的方式:驗證聲稱的關鍵點。
方差適用於代理和評判者
LLM是隨機的,一次運行不足為信。每個代理配置至少應運行三次,並關注跨運行、跨評判者、跨公司和跨數據集的一致性分離信號。
結果與路徑同樣重要
評估不僅要看最終輸出質量,還要分析代理的推理路徑和邏輯過程,因為路徑揭示了代理的思考方式和潛在假設。
下一步:實時財報電話會議覆蓋
作者計劃將評估擴展至實時財報電話會議覆蓋,這是邁向真正自主研究的開始。
總之,構建有效的金融AI代理評估需要超越傳統基準,採用相對評分、強評判者、數據訪問和統計穩健性,以捕捉投資研究中的細微差別。