MacroLens:宏观经济场景下的多任务上下文金融推理基准研究
MacroLens是一个全新的多任务基准,涵盖2021-2026年间4,416只美国小盘和微盘股。它整合价格、会计数据、宏观经济序列、SEC文件和新闻,旨在解决金融时间序列评估中四大假设违反问题。基准包含七个任务、1,130个宏观经济事件,评估了19种方法,并进行了特征消融实验。
金融决策具有高度上下文依赖性。无论是预测股价、评估公司价值还是衡量事件风险,投资者和分析师都需要综合考虑价格历史、会计基本面、宏观经济体制以及实时文本信息。然而,现有的大多数时间序列评估基准忽略了这些信号之间的复杂交互。更关键的是,金融领域存在四个违反标准时间序列评估假设的特殊性:文本必须以其发布日期为门控以防止前瞻偏差;季度基本面报告存在1至90天的报告滞后;财务文件文本与伴随的数值报表字段存在部分冗余;宏观经济体制在日历分割间存在泄漏。目前没有任何公开基准能同时处理这四种信号。
针对这一挑战,来自DeepAuto AI的研究团队提出了MacroLens——一个涵盖2021年至2026年4,416只美国小盘和微盘股的多任务基准。MacroLens构建了一个统一的“点时间面板”,整合了价格数据、4,680万个XBRL会计事实、53个宏观经济序列、295,860份SEC文件和215,882篇新闻文章。此外,它还包括一个由1,130个宏观经济事件组成的场景层,这些事件横跨49种类型,通过自动检测并以自然语言形式呈现。
MacroLens设计了七个任务来全面评估模型的金融推理能力:上下文预测、公开估值、私人估值、基于基本面和描述的财务报表生成、场景条件收益预测以及房地产估值。研究团队评估了19种方法,涵盖六个家族:从简单启发式、时间序列基础模型、微调LLM时间序列模型到零样本大型语言模型(LLM)。此外,他们还针对两个前沿LLM和一个梯度提升基线进行了五步特征上下文消融实验,以探究不同信号对推理性能的影响。
实验结果揭示了上下文特征在金融推理中的重要性。MacroLens基准测试能够有效区分不同方法在多信号环境下的表现,为开发更鲁棒的上下文金融推理模型提供了重要参考。该基准已在Hugging Face数据集平台公开发布(https://huggingface.co/datasets/DeepAuto-AI/MacroLens),为金融AI研究人员提供了一个标准化、多任务的评估平台,有望推动更智能、更全面的金融决策模型的发展。