AI News HubLIVE
站內改寫2 分鐘閱讀

構建金融AI代理評估的經驗教訓

本文作者基於三年實踐,分享了為金融AI代理構建內部評估的核心經驗:絕對評分在達到一定質量閾值後會失效,相對評分能更好地捕捉細微差別;應使用最強的前沿模型作為評判者,並賦予其原始資料訪問許可權;評估結果需考慮代理和評判者的方差;路徑與結果同樣重要。文章還探討了現有金融基準的侷限性,並介紹了作者開發的調整後現金流筆記評估等內部基準。

來源Hacker News AI作者: smallwoodal

本文字作者在離開對沖基金三年後,投入了大量時間於大型語言模型(LLM)提示、AI代理測試和股票研究評估。從早期為GPT-3.5提供提示,到如今與先進代理和工具合作,這段經歷迫使作者深入理解金融與AI,並形成了對何為“優秀”股權研究的看法。

當前大多數公開可用的“金融AI”基準存在關鍵缺陷:無法捕捉細微差別。而在投資領域,細微差別至關重要。為此,作者構建了內部評估體系,以下是核心經驗總結。

絕對評分在質量閾值後失效

當代理基本勝任(即方法論正確、計算無誤、提出財務上合理的論點)後,絕對分數便難以區分優劣。兩份報告可能都滿足所有評分標準,但質量仍存在差異。例如,對於同一公司的分析,一位分析師可能將利潤率壓力視為暫時性投資過度,而另一位則視為結構性競爭證據,兩者在財務上均合理。

評判者需要競爭

真正重要的是研究是否改善了投資者對可能結果的認知圖譜——揭示大多數分析遺漏的情景、賦予合理的機率權重,並識別可能改變勝率的因素。當一個智慧體變得足夠優秀,持續超越基線時,增量效能難以透過絕對評分觀察。

相對評分有效的原因

將輸出並排呈現,讓評判者同時檢視所有輸出,要求其排序、評分並解釋差異。這正是投資者評估研究的方式:比較多個分析師的論點,注意一個分析師看到的而另一個遺漏的關鍵問題。例如,在對Robinhood的預測評估中,兩個代理模型和預測筆記的絕對得分相同,但相對評判者更偏好一個使用替代資料(如X/Twitter)驗證近期趨勢的輸出。

使用最強的評判者

對於嚴肅的研究工作流程,應使用最強的前沿模型作為評判者。它需要能夠識別微弱的分析弱點,區分洞察力與冗長,並判斷結論在財務上合理但實際無用的情形。

給評判者資料訪問許可權

如果代理使用了源文件、市場資料、X、Polymarket或替代資料,評判者需要能夠驗證其主張。資料訪問使評判者能提問:“這是否正確?它是否忽略了重要資訊?它是否誇大了結論?” 這類似於基金經理閱讀研究的方式:驗證聲稱的關鍵點。

方差適用於代理和評判者

LLM是隨機的,一次執行不足為信。每個代理配置至少應執行三次,並關注跨執行、跨評判者、跨公司和跨資料集的一致性分離訊號。

結果與路徑同樣重要

評估不僅要看最終輸出質量,還要分析代理的推理路徑和邏輯過程,因為路徑揭示了代理的思考方式和潛在假設。

下一步:即時財報電話會議覆蓋

作者計劃將評估擴充套件至即時財報電話會議覆蓋,這是邁向真正自主研究的開始。

總之,構建有效的金融AI代理評估需要超越傳統基準,採用相對評分、強評判者、資料訪問和統計穩健性,以捕捉投資研究中的細微差別。