MacroLens:宏觀經濟場景下的多工上下文金融推理基準研究
MacroLens是一個全新的多工基準,涵蓋2021-2026年間4,416只美國小盤和微盤股。它整合價格、會計資料、宏觀經濟序列、SEC檔案和新聞,旨在解決金融時間序列評估中四大假設違反問題。基準包含七個任務、1,130個宏觀經濟事件,評估了19種方法,並進行了特徵消融實驗。
金融決策具有高度上下文依賴性。無論是預測股價、評估公司價值還是衡量事件風險,投資者和分析師都需要綜合考慮價格歷史、會計基本面、宏觀經濟體制以及即時文本資訊。然而,現有的大多數時間序列評估基準忽略了這些訊號之間的複雜互動。更關鍵的是,金融領域存在四個違反標準時間序列評估假設的特殊性:文本必須以其釋出日期為門控以防止前瞻偏差;季度基本面報告存在1至90天的報告滯後;財務檔案文本與伴隨的數值報表欄位存在部分冗餘;宏觀經濟體制在日曆分割間存在洩漏。目前沒有任何公開基準能同時處理這四種訊號。
針對這一挑戰,來自DeepAuto AI的研究團隊提出了MacroLens——一個涵蓋2021年至2026年4,416只美國小盤和微盤股的多工基準。MacroLens構建了一個統一的“點時間面板”,整合了價格資料、4,680萬個XBRL會計事實、53個宏觀經濟序列、295,860份SEC檔案和215,882篇新聞文章。此外,它還包括一個由1,130個宏觀經濟事件組成的場景層,這些事件橫跨49種型別,透過自動檢測並以自然語言形式呈現。
MacroLens設計了七個任務來全面評估模型的金融推理能力:上下文預測、公開估值、私人估值、基於基本面和描述的財務報表生成、場景條件收益預測以及房地產估值。研究團隊評估了19種方法,涵蓋六個家族:從簡單啟發式、時間序列基礎模型、微調LLM時間序列模型到零樣本大型語言模型(LLM)。此外,他們還針對兩個前沿LLM和一個梯度提升基線進行了五步特徵上下文消融實驗,以探究不同訊號對推理效能的影響。
實驗結果揭示了上下文特徵在金融推理中的重要性。MacroLens基準測試能夠有效區分不同方法在多訊號環境下的表現,為開發更魯棒的上下文金融推理模型提供了重要參考。該基準已在Hugging Face資料集平臺公開發布(https://huggingface.co/datasets/DeepAuto-AI/MacroLens),為金融AI研究人員提供了一個標準化、多工的評估平臺,有望推動更智慧、更全面的金融決策模型的發展。