2026-06-25 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-25 15:50 UTC+8

MacroLens：宏觀經濟場景下的多任務上下文金融推理基準研究

MacroLens是一個全新的多任務基準，涵蓋2021-2026年間4,416只美國小盤和微盤股。它整合價格、會計數據、宏觀經濟序列、SEC文件和新聞，旨在解決金融時間序列評估中四大假設違反問題。基準包含七個任務、1,130個宏觀經濟事件，評估了19種方法，並進行了特徵消融實驗。

來源arXiv Machine Learning作者: Patara Trirat, Jin Myung Kwak, Jay Heo, Heejun Lee, Sung Ju Hwang

金融決策具有高度上下文依賴性。無論是預測股價、評估公司價值還是衡量事件風險，投資者和分析師都需要綜合考慮價格歷史、會計基本面、宏觀經濟體制以及實時文本信息。然而，現有的大多數時間序列評估基準忽略了這些信號之間的複雜交互。更關鍵的是，金融領域存在四個違反標準時間序列評估假設的特殊性：文本必須以其發佈日期為門控以防止前瞻偏差；季度基本面報告存在1至90天的報告滯後；財務文件文本與伴隨的數值報表字段存在部分冗餘；宏觀經濟體制在日曆分割間存在泄漏。目前沒有任何公開基準能同時處理這四種信號。

針對這一挑戰，來自DeepAuto AI的研究團隊提出了MacroLens——一個涵蓋2021年至2026年4,416只美國小盤和微盤股的多任務基準。MacroLens構建了一個統一的“點時間面板”，整合了價格數據、4,680萬個XBRL會計事實、53個宏觀經濟序列、295,860份SEC文件和215,882篇新聞文章。此外，它還包括一個由1,130個宏觀經濟事件組成的場景層，這些事件橫跨49種類型，通過自動檢測並以自然語言形式呈現。

MacroLens設計了七個任務來全面評估模型的金融推理能力：上下文預測、公開估值、私人估值、基於基本面和描述的財務報表生成、場景條件收益預測以及房地產估值。研究團隊評估了19種方法，涵蓋六個家族：從簡單啓發式、時間序列基礎模型、微調LLM時間序列模型到零樣本大型語言模型（LLM）。此外，他們還針對兩個前沿LLM和一個梯度提升基線進行了五步特徵上下文消融實驗，以探究不同信號對推理性能的影響。

實驗結果揭示了上下文特徵在金融推理中的重要性。MacroLens基準測試能夠有效區分不同方法在多信號環境下的表現，為開發更魯棒的上下文金融推理模型提供了重要參考。該基準已在Hugging Face數據集平台公開發布（https://huggingface.co/datasets/DeepAuto-AI/MacroLens），為金融AI研究人員提供了一個標準化、多任務的評估平台，有望推動更智能、更全面的金融決策模型的發展。