2026-06-22 16:51 UTC+8站内改写2 分钟阅读更新: 2026-06-22 17:02 UTC+8

构建金融AI代理评估的经验教训

本文作者基于三年实践，分享了为金融AI代理构建内部评估的核心经验：绝对评分在达到一定质量阈值后会失效，相对评分能更好地捕捉细微差别；应使用最强的前沿模型作为评判者，并赋予其原始数据访问权限；评估结果需考虑代理和评判者的方差；路径与结果同样重要。文章还探讨了现有金融基准的局限性，并介绍了作者开发的调整后现金流笔记评估等内部基准。

来源Hacker News AI作者: smallwoodal

本文字作者在离开对冲基金三年后，投入了大量时间于大型语言模型（LLM）提示、AI代理测试和股票研究评估。从早期为GPT-3.5提供提示，到如今与先进代理和工具合作，这段经历迫使作者深入理解金融与AI，并形成了对何为“优秀”股权研究的看法。

当前大多数公开可用的“金融AI”基准存在关键缺陷：无法捕捉细微差别。而在投资领域，细微差别至关重要。为此，作者构建了内部评估体系，以下是核心经验总结。

绝对评分在质量阈值后失效

当代理基本胜任（即方法论正确、计算无误、提出财务上合理的论点）后，绝对分数便难以区分优劣。两份报告可能都满足所有评分标准，但质量仍存在差异。例如，对于同一公司的分析，一位分析师可能将利润率压力视为暂时性投资过度，而另一位则视为结构性竞争证据，两者在财务上均合理。

评判者需要竞争

真正重要的是研究是否改善了投资者对可能结果的认知图谱——揭示大多数分析遗漏的情景、赋予合理的概率权重，并识别可能改变胜率的因素。当一个智能体变得足够优秀，持续超越基线时，增量性能难以通过绝对评分观察。

相对评分有效的原因

将输出并排呈现，让评判者同时查看所有输出，要求其排序、评分并解释差异。这正是投资者评估研究的方式：比较多个分析师的论点，注意一个分析师看到的而另一个遗漏的关键问题。例如，在对Robinhood的预测评估中，两个代理模型和预测笔记的绝对得分相同，但相对评判者更偏好一个使用替代数据（如X/Twitter）验证近期趋势的输出。

使用最强的评判者

对于严肃的研究工作流程，应使用最强的前沿模型作为评判者。它需要能够识别微弱的分析弱点，区分洞察力与冗长，并判断结论在财务上合理但实际无用的情形。

给评判者数据访问权限

如果代理使用了源文档、市场数据、X、Polymarket或替代数据，评判者需要能够验证其主张。数据访问使评判者能提问：“这是否正确？它是否忽略了重要信息？它是否夸大了结论？” 这类似于基金经理阅读研究的方式：验证声称的关键点。

方差适用于代理和评判者

LLM是随机的，一次运行不足为信。每个代理配置至少应运行三次，并关注跨运行、跨评判者、跨公司和跨数据集的一致性分离信号。

结果与路径同样重要

评估不仅要看最终输出质量，还要分析代理的推理路径和逻辑过程，因为路径揭示了代理的思考方式和潜在假设。

下一步：实时财报电话会议覆盖

作者计划将评估扩展至实时财报电话会议覆盖，这是迈向真正自主研究的开始。

总之，构建有效的金融AI代理评估需要超越传统基准，采用相对评分、强评判者、数据访问和统计稳健性，以捕捉投资研究中的细微差别。