大語言模型在金融市場的應用
本文探討了大語言模型(LLM)在金融市場中的應用潛力與挑戰。儘管LLM在自然語言處理中表現優異,但在金融時間序列預測中面臨數據稀缺、噪聲多、對抗性環境等問題。文章分析了多模態學習、殘差化、長上下文窗口等技術的可能用途,並指出合成數據生成和基礎分析輔助是更可行的方向。總體保持謹慎樂觀。
大語言模型(LLM)在2023年推動了人工智能革命,吸引了鉅額投資並引發了公眾的廣泛關注。像ChatGPT這樣的變革性消費產品,其背後正是LLM,它們擅長對錶示單詞或單詞部分的令牌序列進行建模。令人驚訝的是,通過預測下一個令牌,模型能湧現出對結構的理解,從而完成翻譯、問答和生成類似人類文本等任務。
量化交易者自然會產生疑問:能否將這些模型應用於價格或交易預測?也就是説,不再建模單詞序列,而是建模價格或交易序列。這一探索方向揭示了生成式AI和金融時間序列建模的許多本質。
LLM作為自迴歸學習器,利用序列中的先前令牌預測下一個元素。在量化交易中,例如統計套利策略,大部分研究關注識別自迴歸結構,即尋找能最好預測未來價格的新聞、訂單或基本面變化序列。然而,問題在於可用數據的數量和信息含量。在2023年NeurIPS會議上,高頻交易公司Hudson River Trading比較了訓練GPT-3所需的輸入令牌數量與股市每年可用的可訓練令牌數量。他們估計,以3000只可交易股票、每隻每天10個數據點、每年252個交易日、每個交易日23400秒計算,每年有1770億個股市令牌可供使用。而GPT-3是在5000億個令牌上訓練的,兩者差距並非遙不可及。
但在交易情境中,令牌是價格、收益率或交易量,而非音節或單詞,前者預測難度大得多。語言具有潛在的語法結構,人類很容易預測句子中的下一個詞,但預測下一個收益率卻極其困難,因此沒有誕生億萬富翁日內交易者。原因在於市場上存在大量聰明人競爭抵消任何信號,使市場接近有效(經濟學家Lasse Pedersen稱之為“有效的無效”),因而難以預測。沒有人會主動讓句子變得難預測,相反,作者通常力求文章易於理解。
從另一個角度看,金融數據中的噪聲遠多於信號。個人和機構的交易動機可能不理性,或者與基本面無關,2021年的GameStop事件就是例子。金融時間序列還不斷受新信息、監管變化和宏觀經濟衝擊(如貨幣貶值)的影響,而語言演化速度慢得多,時間跨度更長。
另一方面,AI理念在金融市場也有應用前景。多模態學習是一個新興方向,旨在整合不同數據類型(如圖像和文本)構建統一模型。在金融領域,多模態方法可結合傳統技術時間序列數據(價格、交易量等)與替代數據(如推特情緒、新聞文章、公司報告或衞星圖像)。通過多模態AI,可以融合所有這些非價格信息進行預測。
“殘差化”策略在金融和AI中都很重要,但角色不同。在金融中,結構化因子模型將資產收益分解為共同成分(市場收益或共同因子)和每個資產特有的異質成分。市場因子難以預測,因此去除共同元素有助於個體資產層面的預測。在殘差網絡(如Transformer)中,類似的想法是學習輸入X的函數h(X),但更容易學習h(X)與恆等映射的殘差。兩種方法都旨在利用結構優化預測。
LLM成功的關鍵是能夠識別長上下文窗口內令牌之間的關聯。在金融市場中,長程注意力可分析多尺度現象:基本面信息(如盈利)可能在數月內被定價,技術現象(如動量)在數天內實現,而微觀結構現象(如訂單簿失衡)的時間尺度是秒到分鐘。捕獲所有這些現象需要跨越多個時間窗口。然而,金融中的多期預測同樣重要,交易系統需同時利用不同時間尺度上的異常,預測不僅下一期收益,還要預測整個期望收益的期限結構,而當前Transformer模型僅預測未來一期。
LLM在金融中的另一應用是合成數據生成。模擬股票價格軌跡可以模仿市場特徵,鑑於金融數據稀缺,合成數據極具價值。人工數據可為元學習打開大門,類似機器人領域的做法:先在低成本但不夠精確的模擬器中訓練控制器,再用真實實驗校準。在金融中,模擬器可粗略訓練交易策略,學習風險規避、分散化等高級概念,以及減少交易衝擊的戰術,然後用真實市場數據微調預測。
金融市場從業者通常關注極端事件,生成模型可以採樣極端場景,但極端事件本身罕見,確定正確參數並採樣十分困難。
儘管LLM直接用於量化交易前景存疑,但它們可能助力基本面分析。隨着AI進步,可以想象它們幫助分析師完善投資論點、發現管理層評論中的不一致,或找出跨行業間的潛在關係。本質上,這些模型可以為每位投資者提供一個類似“查理·芒格”的智能助手。
當前生成式AI革命的驚人之處在於,它幾乎讓所有人——學術研究者、前沿科技公司和長期觀察者——感到意外。構建越來越大的模型會導致湧現能力,這一現象完全出乎意料且尚未完全理解。AI模型的成功加速了人力資本和金融資本湧入該領域,從而催生更強大的模型。因此,儘管GPT-4這類模型接管量化交易的可能性目前不大,但保持開放心態十分必要。在AI領域,期待意外已成為一個有利可圖的主題。