2026-07-02 18:02 UTC+8站内改写2 分钟阅读更新: 2026-07-02 18:34 UTC+8

“学习在金融任务中复制专家判断”—— Thinking Machines

Thinking Machines 探索了如何通过高质量人工标注训练 LLM，使其在金融信息筛选任务中达到专家级判断力。其专有模型在准确性和召回率上超越前沿模型，且成本更低。

在金融市场中，超越市场平均表现是极其困难的挑战。当所有投资者都能够获取相同的公开信息时，超额收益（alpha）必须来源于基于独特品味和判断的洞察。然而，优秀投资者的判断力难以用言语传达，无论是教给人还是人工智能，都需要长期经验的积累。

即使我们将投资者的工作分解为最简单的构成任务，这些任务对于大型语言模型（LLM）来说也出奇地困难。在这篇文章中，我们考虑一个简单但关键的特例：过滤和处理金融文档，以提取与投资决策相关的信息。

投资者每天被海量信息包围：新闻文章、研究报告、公司文件、电子邮件、内部摘要等。阅读本身是容易的，但真正的工作在于对这些信息进行微小而重复的判断——过滤、解读、分段、识别有用信号所在。这些判断贯穿投资者的日常工作流程，消耗大量时间。

我们的目标是探索能否自动化信息分诊任务：识别哪些信息是相关且值得阅读的。仅此一项就能大幅提升投资者的生产力，让他们将解放出来的注意力用于更高层次的综合与决策。

鉴于 LLM 在简单金融任务上表现不佳，我们提出一个关键问题：是否有可能教会 LLM 金融判断力？通过使用高质量的人工标注数据，我们发现可以教会 LLM 以专家级的品味和判断力解读文本。我们专有的模型在信息准确性和召回率上超越了所有测试的前沿模型，而成本仅为它们的零头。

我们详细描述了训练过程以及在一批可公开数据上的结果。基于这些结果，我们进一步描绘了一个差异化智能的愿景雏形，即针对特定组织需求进行调优的模型。

前沿模型的表现

我们在六项源自投资者日常工作流程的信息筛选任务上评估了模型。除了这些任务，我们内部还有许多其他任务也显示出类似模式：我们测试的前沿模型表现不如我们内部训练的模型。

我们测量了准确率——根据投资者标准正确标注的文档百分比。对于分类任务，我们还计算了 F1 分数。这些评估结果清楚地展示了我们方法的优势。

金融文章相关性测试

综上所述，我们的研究表明，通过高质量的人工标注，可以有效地将专家的隐性知识传授给 LLM，从而在特定金融任务上实现超越前沿模型的性能。这不仅为金融领域的信息处理提供了新的可能性，也预示着未来模型定制化的发展方向。