2026-06-25 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-25 15:50 UTC+8

MacroLens：宏觀經濟場景下的多工上下文金融推理基準研究

MacroLens是一個全新的多工基準，涵蓋2021-2026年間4,416只美國小盤和微盤股。它整合價格、會計資料、宏觀經濟序列、SEC檔案和新聞，旨在解決金融時間序列評估中四大假設違反問題。基準包含七個任務、1,130個宏觀經濟事件，評估了19種方法，並進行了特徵消融實驗。

來源arXiv Machine Learning作者: Patara Trirat, Jin Myung Kwak, Jay Heo, Heejun Lee, Sung Ju Hwang

金融決策具有高度上下文依賴性。無論是預測股價、評估公司價值還是衡量事件風險，投資者和分析師都需要綜合考慮價格歷史、會計基本面、宏觀經濟體制以及即時文本資訊。然而，現有的大多數時間序列評估基準忽略了這些訊號之間的複雜互動。更關鍵的是，金融領域存在四個違反標準時間序列評估假設的特殊性：文本必須以其釋出日期為門控以防止前瞻偏差；季度基本面報告存在1至90天的報告滯後；財務檔案文本與伴隨的數值報表欄位存在部分冗餘；宏觀經濟體制在日曆分割間存在洩漏。目前沒有任何公開基準能同時處理這四種訊號。

針對這一挑戰，來自DeepAuto AI的研究團隊提出了MacroLens——一個涵蓋2021年至2026年4,416只美國小盤和微盤股的多工基準。MacroLens構建了一個統一的“點時間面板”，整合了價格資料、4,680萬個XBRL會計事實、53個宏觀經濟序列、295,860份SEC檔案和215,882篇新聞文章。此外，它還包括一個由1,130個宏觀經濟事件組成的場景層，這些事件橫跨49種型別，透過自動檢測並以自然語言形式呈現。

MacroLens設計了七個任務來全面評估模型的金融推理能力：上下文預測、公開估值、私人估值、基於基本面和描述的財務報表生成、場景條件收益預測以及房地產估值。研究團隊評估了19種方法，涵蓋六個家族：從簡單啟發式、時間序列基礎模型、微調LLM時間序列模型到零樣本大型語言模型（LLM）。此外，他們還針對兩個前沿LLM和一個梯度提升基線進行了五步特徵上下文消融實驗，以探究不同訊號對推理效能的影響。

實驗結果揭示了上下文特徵在金融推理中的重要性。MacroLens基準測試能夠有效區分不同方法在多訊號環境下的表現，為開發更魯棒的上下文金融推理模型提供了重要參考。該基準已在Hugging Face資料集平臺公開發布（https://huggingface.co/datasets/DeepAuto-AI/MacroLens），為金融AI研究人員提供了一個標準化、多工的評估平臺，有望推動更智慧、更全面的金融決策模型的發展。