2026-07-02 18:02 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 18:34 UTC+8

“學習在金融任務中複製專家判斷”—— Thinking Machines

Thinking Machines 探索瞭如何通過高質量人工標註訓練 LLM，使其在金融信息篩選任務中達到專家級判斷力。其專有模型在準確性和召回率上超越前沿模型，且成本更低。

在金融市場中，超越市場平均表現是極其困難的挑戰。當所有投資者都能夠獲取相同的公開信息時，超額收益（alpha）必須來源於基於獨特品味和判斷的洞察。然而，優秀投資者的判斷力難以用言語傳達，無論是教給人還是人工智能，都需要長期經驗的積累。

即使我們將投資者的工作分解為最簡單的構成任務，這些任務對於大型語言模型（LLM）來説也出奇地困難。在這篇文章中，我們考慮一個簡單但關鍵的特例：過濾和處理金融文檔，以提取與投資決策相關的信息。

投資者每天被海量信息包圍：新聞文章、研究報告、公司文件、電子郵件、內部摘要等。閲讀本身是容易的，但真正的工作在於對這些信息進行微小而重複的判斷——過濾、解讀、分段、識別有用信號所在。這些判斷貫穿投資者的日常工作流程，消耗大量時間。

我們的目標是探索能否自動化信息分診任務：識別哪些信息是相關且值得閲讀的。僅此一項就能大幅提升投資者的生產力，讓他們將解放出來的注意力用於更高層次的綜合與決策。

鑑於 LLM 在簡單金融任務上表現不佳，我們提出一個關鍵問題：是否有可能教會 LLM 金融判斷力？通過使用高質量的人工標註數據，我們發現可以教會 LLM 以專家級的品味和判斷力解讀文本。我們專有的模型在信息準確性和召回率上超越了所有測試的前沿模型，而成本僅為它們的零頭。

我們詳細描述了訓練過程以及在一批可公開數據上的結果。基於這些結果，我們進一步描繪了一個差異化智能的願景雛形，即針對特定組織需求進行調優的模型。

前沿模型的表現

我們在六項源自投資者日常工作流程的信息篩選任務上評估了模型。除了這些任務，我們內部還有許多其他任務也顯示出類似模式：我們測試的前沿模型表現不如我們內部訓練的模型。

我們測量了準確率——根據投資者標準正確標註的文檔百分比。對於分類任務，我們還計算了 F1 分數。這些評估結果清楚地展示了我們方法的優勢。

金融文章相關性測試

綜上所述，我們的研究表明，通過高質量的人工標註，可以有效地將專家的隱性知識傳授給 LLM，從而在特定金融任務上實現超越前沿模型的性能。這不僅為金融領域的信息處理提供了新的可能性，也預示着未來模型定製化的發展方向。