AI News HubLIVE
站内改写3 分钟阅读

大语言模型在金融市场的应用

本文探讨了大语言模型(LLM)在金融市场中的应用潜力与挑战。尽管LLM在自然语言处理中表现优异,但在金融时间序列预测中面临数据稀缺、噪声多、对抗性环境等问题。文章分析了多模态学习、残差化、长上下文窗口等技术的可能用途,并指出合成数据生成和基础分析辅助是更可行的方向。总体保持谨慎乐观。

来源The Gradient作者: Richard Dewey

大语言模型(LLM)在2023年推动了人工智能革命,吸引了巨额投资并引发了公众的广泛关注。像ChatGPT这样的变革性消费产品,其背后正是LLM,它们擅长对表示单词或单词部分的令牌序列进行建模。令人惊讶的是,通过预测下一个令牌,模型能涌现出对结构的理解,从而完成翻译、问答和生成类似人类文本等任务。

量化交易者自然会产生疑问:能否将这些模型应用于价格或交易预测?也就是说,不再建模单词序列,而是建模价格或交易序列。这一探索方向揭示了生成式AI和金融时间序列建模的许多本质。

LLM作为自回归学习器,利用序列中的先前令牌预测下一个元素。在量化交易中,例如统计套利策略,大部分研究关注识别自回归结构,即寻找能最好预测未来价格的新闻、订单或基本面变化序列。然而,问题在于可用数据的数量和信息含量。在2023年NeurIPS会议上,高频交易公司Hudson River Trading比较了训练GPT-3所需的输入令牌数量与股市每年可用的可训练令牌数量。他们估计,以3000只可交易股票、每只每天10个数据点、每年252个交易日、每个交易日23400秒计算,每年有1770亿个股市令牌可供使用。而GPT-3是在5000亿个令牌上训练的,两者差距并非遥不可及。

但在交易情境中,令牌是价格、收益率或交易量,而非音节或单词,前者预测难度大得多。语言具有潜在的语法结构,人类很容易预测句子中的下一个词,但预测下一个收益率却极其困难,因此没有诞生亿万富翁日内交易者。原因在于市场上存在大量聪明人竞争抵消任何信号,使市场接近有效(经济学家Lasse Pedersen称之为“有效的无效”),因而难以预测。没有人会主动让句子变得难预测,相反,作者通常力求文章易于理解。

从另一个角度看,金融数据中的噪声远多于信号。个人和机构的交易动机可能不理性,或者与基本面无关,2021年的GameStop事件就是例子。金融时间序列还不断受新信息、监管变化和宏观经济冲击(如货币贬值)的影响,而语言演化速度慢得多,时间跨度更长。

另一方面,AI理念在金融市场也有应用前景。多模态学习是一个新兴方向,旨在整合不同数据类型(如图像和文本)构建统一模型。在金融领域,多模态方法可结合传统技术时间序列数据(价格、交易量等)与替代数据(如推特情绪、新闻文章、公司报告或卫星图像)。通过多模态AI,可以融合所有这些非价格信息进行预测。

“残差化”策略在金融和AI中都很重要,但角色不同。在金融中,结构化因子模型将资产收益分解为共同成分(市场收益或共同因子)和每个资产特有的异质成分。市场因子难以预测,因此去除共同元素有助于个体资产层面的预测。在残差网络(如Transformer)中,类似的想法是学习输入X的函数h(X),但更容易学习h(X)与恒等映射的残差。两种方法都旨在利用结构优化预测。

LLM成功的关键是能够识别长上下文窗口内令牌之间的关联。在金融市场中,长程注意力可分析多尺度现象:基本面信息(如盈利)可能在数月内被定价,技术现象(如动量)在数天内实现,而微观结构现象(如订单簿失衡)的时间尺度是秒到分钟。捕获所有这些现象需要跨越多个时间窗口。然而,金融中的多期预测同样重要,交易系统需同时利用不同时间尺度上的异常,预测不仅下一期收益,还要预测整个期望收益的期限结构,而当前Transformer模型仅预测未来一期。

LLM在金融中的另一应用是合成数据生成。模拟股票价格轨迹可以模仿市场特征,鉴于金融数据稀缺,合成数据极具价值。人工数据可为元学习打开大门,类似机器人领域的做法:先在低成本但不够精确的模拟器中训练控制器,再用真实实验校准。在金融中,模拟器可粗略训练交易策略,学习风险规避、分散化等高级概念,以及减少交易冲击的战术,然后用真实市场数据微调预测。

金融市场从业者通常关注极端事件,生成模型可以采样极端场景,但极端事件本身罕见,确定正确参数并采样十分困难。

尽管LLM直接用于量化交易前景存疑,但它们可能助力基本面分析。随着AI进步,可以想象它们帮助分析师完善投资论点、发现管理层评论中的不一致,或找出跨行业间的潜在关系。本质上,这些模型可以为每位投资者提供一个类似“查理·芒格”的智能助手。

当前生成式AI革命的惊人之处在于,它几乎让所有人——学术研究者、前沿科技公司和长期观察者——感到意外。构建越来越大的模型会导致涌现能力,这一现象完全出乎意料且尚未完全理解。AI模型的成功加速了人力资本和金融资本涌入该领域,从而催生更强大的模型。因此,尽管GPT-4这类模型接管量化交易的可能性目前不大,但保持开放心态十分必要。在AI领域,期待意外已成为一个有利可图的主题。