大規模言語モデルの金融市場応用
本稿では、大規模言語モデル(LLM)の金融市場への応用可能性と課題を探る。LLMは自然言語処理に優れるが、金融時系列予測ではデータ不足、ノイズ、敵対的環境などの問題に直面する。マルチモーダル学習、残差化、長いコンテキストウィンドウなどの可能性を分析し、合成データ生成とファンダメンタル分析支援がより現実的な方向性であると示唆する。全体的に慎重ながら楽観的な見解を示す。
大規模言語モデル(LLM)は2023年にAI革命を牽引し、民間企業や公開企業への熱狂的な投資を促し、一般の想像力を捉えました。ChatGPTのような変革的な消費者製品は、単語やその一部を表すトークンの系列をモデル化することに優れたLLMによって支えられています。驚くべきことに、次のトークンを予測する学習から構造的な理解が出現し、エージェントは翻訳、質問応答、人間らしい散文の生成などのタスクを簡単なユーザープロンプトから実行できるようになります。
当然ながら、定量トレーダーはこう問いかけました:これらのモデルを価格や取引の予測に転用できるか?つまり、単語の系列ではなく、価格や取引の系列をモデル化できるか。これは、生成AIと金融時系列モデリングの両方について多くのことを明らかにする興味深い探求です。専門的になることをご容赦ください。
LLMは自己回帰学習器として知られています。つまり、系列内の以前のトークンや要素を使用して次の要素やトークンを予測します。定量取引、例えば株式の統計的裁定戦略では、ほとんどの研究は自己回帰構造の特定に関心があります。つまり、将来の価格を最もよく予測するニュース、注文、またはファンダメンタルズの変化の系列を見つけることです。
問題が生じるのは、モデルを訓練するための利用可能なデータの量と情報内容です。2023年のNeurIPSカンファレンスで、高頻度取引会社であるハドソン・リバー・トレーディングは、GPT-3の訓練に使用された入力トークン数と、株式市場データから年間に利用可能な訓練可能トークン数を比較しました。HRTの推定では、3,000の取引可能株式、1株あたり1日10データポイント、年間252取引日、1取引日23,400秒として、年間1,770億の株式市場トークンが市場データとして利用可能です。GPT-3は5,000億トークンで訓練されたため、それほど離れていません。
しかし、取引の文脈では、トークンは音節や単語ではなく価格、リターン、取引となり、後者の予測ははるかに困難です。言語には基礎的な言語構造(文法など)があります。人間が文中の次の単語を予測することは想像に難くありませんが、同じ人間が過去の取引の系列から次のリターンを予測することは非常に困難であり、億万長者のデイトレーダーがいない理由です。課題は、非常に賢い人々が市場のシグナルを競い合って消し去り、市場をほぼ効率的にし(経済学者ラッセ・ペダーセンの言葉を借りれば「効率的に非効率的」)、したがって予測不能にしていることです。文を予測しにくくするために積極的に敵対する者はおらず、むしろ著者は通常、文を理解しやすく、より予測可能にしようと努めます。
別の角度から見ると、金融データにはシグナルよりもはるかに多くのノイズがあります。個人や機関は、合理的でなかったり企業のファンダメンタルズの変化に結びついていない理由で取引を行います。2021年のGameStop事件はその一例です。金融時系列はまた、新たなファンダメンタル情報、規制変更、時折の大規模なマクロ経済シフト(通貨切り下げなど)によって絶えず変化しています。言語の進化ははるかに遅く、長い時間軸で起こります。
一方で、AIのアイデアが金融市場でうまく機能する理由もあります。金融への応用が期待される新興AI研究分野の一つにマルチモーダル学習があります。これは、画像とテキスト入力など異なるモダリティのデータを使用して統一モデルを構築することを目的としています。OpenAIのDALL-E 2モデルでは、ユーザーがテキストを入力するとモデルが画像を生成します。金融では、マルチモーダルの取り組みは、従来の技術的時系列データ(価格、取引、出来高など)と、センチメントやTwitter上のグラフィカルなインタラクション、自然言語のニュース記事や企業報告書、コモディティ中心の港の衛星画像など、さまざまなモードの代替データを組み合わせるのに役立つ可能性があります。ここでは、マルチモーダルAIを活用して、これらすべてのタイプの非価格情報を組み込んで予測できる可能性があります。
「残差化」と呼ばれる別の戦略は、金融とAIの両方で重要な位置を占めていますが、両領域で異なる役割を果たします。金融では、構造的「ファクター」モデルは、異なる資産間のリターンの同時観測を、共通成分(市場リターン、あるいはより一般的には共通の市場全体のファクターのリターン)と各資産に固有の特異成分に分解します。市場およびファクターのリターンは予測が難しく、相互依存性を生み出すため、個別資産レベルでの予測を行う際には共通要素を除去し、データ内の独立した観測数を最大化することが役立つことがよくあります。
トランスフォーマーなどの残差ネットワークアーキテクチャでは、入力Xの関数h(X)を学習したいが、h(X)の恒等写像に対する残差、すなわちh(X) – Xを学習する方が容易かもしれないという同様のアイデアがあります。ここで、関数h(X)が恒等写像に近い場合、その残差はゼロに近くなり、学習すべき量が少なくなり、学習をより効率的に行うことができます。どちらの場合も、構造を活用して予測を洗練することが目標です。金融の場合、市場全体の示唆を超えた革新を予測することに焦点を当て、残差ネットワークでは恒等写像への革新を予測することに焦点を当てます。
LLMの印象的なパフォーマンスの鍵となる要素は、コンテキストウィンドウとして知られる長い地平線にわたってトークン間の親和性や強度を識別する能力です。金融市場では、長い地平線に注意を集中する能力により、多スケール現象の分析が可能になり、市場変化の一部は非常に異なる時間軸で説明されます。例えば、一方の極端では、ファンダメンタル情報(例:収益)は数か月かけて価格に織り込まれ、テクニカル現象(例:モメンタム)は数日で実現し、もう一方の極端では、マイクロストラクチャー現象(例:板の不均衡)は数秒から数分の時間軸を持つ場合があります。
これらすべての現象を捉えるには、コンテキストウィンドウ全体にわたる複数の時間軸の分析が必要です。しかし、金融では、複数の将来の時間軸にわたる予測も重要です。例えば、定量システムは、複数の時間軸で実現される複数の異なるアノマリーから利益を得るために取引しようとするかもしれません(例:マイクロストラクチャーイベントと収益イベントに同時に賭ける)。これには、株式の次の期のリターンだけでなく、期待リターンの全期間構造または軌跡を予測する必要がありますが、現在のトランスフォーマー型予測モデルは将来の1期間しか見ていません。
LLMの別の金融市場応用としては、合成データ生成が考えられます。これにはいくつかの方向性があります。市場で観察される特性を模倣したシミュレートされた株価軌跡を生成でき、上記の利用可能トークン数で強調したように、金融市場データが他の情報源と比較して希少であることを考えると、非常に有益です。人工データは、ロボット工学で成功裏に適用されているメタ学習技術への扉を開く可能性があります。ロボット設定では、コントローラーはまず安価だが必ずしも正確でない物理シミュレーターを使用して訓練され、その後ロボットを使った高価な実世界実験でより良く較正されます。金融では、シミュレーターを使用して取引戦略を粗く訓練し最適化できます。モデルは、リスク回避や分散投資などの高レベル概念や、取引の価格影響を最小化するためにゆっくり取引するなどの戦術的概念を学習します。その後、貴重な実際の市場データを使用して予測を微調整し、取引の最適速度を正確に決定できます。
金融市場の実務家はしばしば極端なイベント、つまり取引戦略が大きな利益または損失を被る可能性が高い時期に関心を持ちます。極端なシナリオからサンプリングできる生成モデルは有用かもしれません。しかし、極端なイベントは定義上まれにしか発生せず、適切なパラメータを決定し、対応する分布からデータをサンプリングすることは困難です。
LLMが定量取引に利用されることには懐疑的な見方があるものの、ファンダメンタル分析を強化する可能性があります。AIモデルが向上するにつれ、アナリストが投資テーゼを洗練し、経営陣のコメントの矛盾を発見し、関連業界とビジネス間の潜在的な関係を見つけるのを支援することが容易に想像できます。本質的に、これらのモデルはすべての投資家にチャーリー・マンガーを提供する可能性があります。
現在の生成AI革命の驚くべき点は、学術研究者、最先端テクノロジー企業、長年の観察者など、ほぼすべての人を驚かせたことです。より大きなモデルを構築することが今日見られるような創発的能力につながるという考えは、完全に予想外であり、まだ完全には理解されていません。
これらのAIモデルの成功は、AIへの人的資本と金融資本の流れを加速させ、それがさらに優れた高性能なモデルにつながるはずです。したがって、GPT-4のようなモデルが定量取引を引き継ぐ可能性は現時点では低いものの、我々はオープンマインドを保つことを提唱します。予期せぬことを期待することは、AIビジネスにおいて利益を生むテーマとなっています。