构建金融AI代理评估的经验教训
本文作者基于三年实践,分享了为金融AI代理构建内部评估的核心经验:绝对评分在达到一定质量阈值后会失效,相对评分能更好地捕捉细微差别;应使用最强的前沿模型作为评判者,并赋予其原始数据访问权限;评估结果需考虑代理和评判者的方差;路径与结果同样重要。文章还探讨了现有金融基准的局限性,并介绍了作者开发的调整后现金流笔记评估等内部基准。
本文字作者在离开对冲基金三年后,投入了大量时间于大型语言模型(LLM)提示、AI代理测试和股票研究评估。从早期为GPT-3.5提供提示,到如今与先进代理和工具合作,这段经历迫使作者深入理解金融与AI,并形成了对何为“优秀”股权研究的看法。
当前大多数公开可用的“金融AI”基准存在关键缺陷:无法捕捉细微差别。而在投资领域,细微差别至关重要。为此,作者构建了内部评估体系,以下是核心经验总结。
绝对评分在质量阈值后失效
当代理基本胜任(即方法论正确、计算无误、提出财务上合理的论点)后,绝对分数便难以区分优劣。两份报告可能都满足所有评分标准,但质量仍存在差异。例如,对于同一公司的分析,一位分析师可能将利润率压力视为暂时性投资过度,而另一位则视为结构性竞争证据,两者在财务上均合理。
评判者需要竞争
真正重要的是研究是否改善了投资者对可能结果的认知图谱——揭示大多数分析遗漏的情景、赋予合理的概率权重,并识别可能改变胜率的因素。当一个智能体变得足够优秀,持续超越基线时,增量性能难以通过绝对评分观察。
相对评分有效的原因
将输出并排呈现,让评判者同时查看所有输出,要求其排序、评分并解释差异。这正是投资者评估研究的方式:比较多个分析师的论点,注意一个分析师看到的而另一个遗漏的关键问题。例如,在对Robinhood的预测评估中,两个代理模型和预测笔记的绝对得分相同,但相对评判者更偏好一个使用替代数据(如X/Twitter)验证近期趋势的输出。
使用最强的评判者
对于严肃的研究工作流程,应使用最强的前沿模型作为评判者。它需要能够识别微弱的分析弱点,区分洞察力与冗长,并判断结论在财务上合理但实际无用的情形。
给评判者数据访问权限
如果代理使用了源文档、市场数据、X、Polymarket或替代数据,评判者需要能够验证其主张。数据访问使评判者能提问:“这是否正确?它是否忽略了重要信息?它是否夸大了结论?” 这类似于基金经理阅读研究的方式:验证声称的关键点。
方差适用于代理和评判者
LLM是随机的,一次运行不足为信。每个代理配置至少应运行三次,并关注跨运行、跨评判者、跨公司和跨数据集的一致性分离信号。
结果与路径同样重要
评估不仅要看最终输出质量,还要分析代理的推理路径和逻辑过程,因为路径揭示了代理的思考方式和潜在假设。
下一步:实时财报电话会议覆盖
作者计划将评估扩展至实时财报电话会议覆盖,这是迈向真正自主研究的开始。
总之,构建有效的金融AI代理评估需要超越传统基准,采用相对评分、强评判者、数据访问和统计稳健性,以捕捉投资研究中的细微差别。