2026-06-25 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-25 15:50 UTC+8

MacroLens：宏观经济场景下的多任务上下文金融推理基准研究

MacroLens是一个全新的多任务基准，涵盖2021-2026年间4,416只美国小盘和微盘股。它整合价格、会计数据、宏观经济序列、SEC文件和新闻，旨在解决金融时间序列评估中四大假设违反问题。基准包含七个任务、1,130个宏观经济事件，评估了19种方法，并进行了特征消融实验。

来源arXiv Machine Learning作者: Patara Trirat, Jin Myung Kwak, Jay Heo, Heejun Lee, Sung Ju Hwang

金融决策具有高度上下文依赖性。无论是预测股价、评估公司价值还是衡量事件风险，投资者和分析师都需要综合考虑价格历史、会计基本面、宏观经济体制以及实时文本信息。然而，现有的大多数时间序列评估基准忽略了这些信号之间的复杂交互。更关键的是，金融领域存在四个违反标准时间序列评估假设的特殊性：文本必须以其发布日期为门控以防止前瞻偏差；季度基本面报告存在1至90天的报告滞后；财务文件文本与伴随的数值报表字段存在部分冗余；宏观经济体制在日历分割间存在泄漏。目前没有任何公开基准能同时处理这四种信号。

针对这一挑战，来自DeepAuto AI的研究团队提出了MacroLens——一个涵盖2021年至2026年4,416只美国小盘和微盘股的多任务基准。MacroLens构建了一个统一的“点时间面板”，整合了价格数据、4,680万个XBRL会计事实、53个宏观经济序列、295,860份SEC文件和215,882篇新闻文章。此外，它还包括一个由1,130个宏观经济事件组成的场景层，这些事件横跨49种类型，通过自动检测并以自然语言形式呈现。

MacroLens设计了七个任务来全面评估模型的金融推理能力：上下文预测、公开估值、私人估值、基于基本面和描述的财务报表生成、场景条件收益预测以及房地产估值。研究团队评估了19种方法，涵盖六个家族：从简单启发式、时间序列基础模型、微调LLM时间序列模型到零样本大型语言模型（LLM）。此外，他们还针对两个前沿LLM和一个梯度提升基线进行了五步特征上下文消融实验，以探究不同信号对推理性能的影响。

实验结果揭示了上下文特征在金融推理中的重要性。MacroLens基准测试能够有效区分不同方法在多信号环境下的表现，为开发更鲁棒的上下文金融推理模型提供了重要参考。该基准已在Hugging Face数据集平台公开发布（https://huggingface.co/datasets/DeepAuto-AI/MacroLens），为金融AI研究人员提供了一个标准化、多任务的评估平台，有望推动更智能、更全面的金融决策模型的发展。