大規模言語モデル研究におけるオープンチャレンジ
本記事は、大規模言語モデル(LLM)に関する10の主要研究分野をまとめたもので、幻覚、コンテキスト学習、マルチモダリティ、速度とコスト、新しいアーキテクチャ、GPU代替、エージェント、人間の嗜好学習、チャットインターフェースの効率性、非英語言語モデルを網羅しています。著者は業界や学界との議論に基づき、各分野の現状と課題を分析しています。
近年、大規模言語モデル(LLM)の分野には多くの優れた人材が集まり、モデル性能の向上に取り組んでいます。本記事では、業界や学界との広範な議論に基づいて、10の主要な研究方向をまとめ、それぞれの現状と将来性を分析します。
1. 幻覚の低減と測定
幻覚はLLMが虚偽の内容を生成する問題です。創造的な用途では特徴となり得ますが、多くの実用的なケースでは深刻な欠陥です。最近のパネルディスカッションによると、幻覚は企業がLLMを採用する際の最大の障害です。研究者は緩和技術と測定指標の開発に取り組んでおり、コンテキスト追加、思考連鎖、自己一貫性などの方法があります。関連論文としては『自然言語生成における幻覚のサーベイ』(Jiら、2022)や『言語モデルの幻覚が雪だるま式に増える仕組み』(Zhangら、2023)などがあります。
2. コンテキスト長と構築の最適化
多くの質問にはコンテキストが必要です。研究によると、情報を求める質問の約16.5%はコンテキストに依存した答えを持ちます。RAG(検索拡張生成)が主流のパターンとなり、インデックス作成とクエリの2段階で機能します。しかし、長いコンテキストが常に良いとは限らず、モデルは中央の情報を理解するのが苦手です(『Lost in the Middle』、Liuら、2023)。そのため、コンテキスト構築の効率も重要です。
3. 他のデータモダリティの統合
マルチモダリティは医療、eコマースなどの分野で大きな需要があり、モデル性能を大幅に向上させます。例えば、医療予測にはテキストと画像の両方が必要です。また、視覚障害者がインターネットを利用するのを支援することもできます。代表的な研究にはOpenAIのCLIP、DeepMindのFlamingo、SalesforceのBLIP-2などがあります。著者はマルチモダリティの可能性は過小評価されていると考え、関連記事の執筆を予定しています。
4. LLMの高速化と低コスト化
GPT-3.5以降、ハードウェア要件は劇的に低下しました。半年以内に、Guanaco 7BはGPT-3.5に近い性能でありながら、メモリ使用量は2%未満になりました。モデル圧縮技術(量子化、知識蒸留、低ランク分解、プルーニング)が広く採用されています。Alpacaは知識蒸留で、QLoRAは低ランク分解と量子化の組み合わせで訓練されています。
5. 新しいモデルアーキテクチャの設計
Transformerは2017年以来主流ですが、新しいアーキテクチャの探索は続いています。Chris Ré研究室のS4やMonarch Mixerは、アテンション機構の2次複雑性を低減しようとしています。新しいアーキテクチャは、現在のハードウェア上で競争力のあるスケールで動作する必要があります。
6. GPU代替の開発
GPUはAlexNet以来、深層学習の主要ハードウェアです。GoogleのTPU、GraphcoreのIPU、Cerebrasなどの試みがあります。光量子チップや量子コンピューティングが新たな方向性として浮上しており、Lightmatter、Ayar Labsなどのスタートアップが数億ドルの資金を調達しています。
7. エージェントの実用化
エージェントはウェブ閲覧やメール送信などのアクションを実行できるLLMです。Auto-GPTはGitHub史上25番目の人気リポジトリになりました。スタンフォード大学の実験では、エージェント社会が自発的に社交行動を示すことが示されましたが、信頼性には疑問が残ります。
8. 人間の嗜好学習の改善
RLHFには多くの未解決問題があります:嗜好を数学的にどう表現するか? 嗜好の基準は何か? 誰の嗜好を代表するのか? 例えば、InstructGPTのラベラーには65歳以上がおらず、OpenAssistantデータセットの90.5%が男性です。
9. チャットインターフェースの効率化
チャットインターフェースはユニバーサルで堅牢ですが、複数メッセージのターン、マルチモーダル入力、メッセージ編集・削除などの改善点があります。アジアのスーパーアプリでは長年チャットが使われていますが、LLMの文脈ではさらなる工夫が必要です。
10. 非英語言語向けLLMの構築
現在の英語優先のLLMは他の言語では性能が十分ではありません。低リソース言語には特別な技術が必要です。関連プロジェクトとしてAya、Symato(ベトナム語)、Cabrita(ポルトガル語)などがあります。物流問題と見る向きもありますが、低リソース言語の課題は無視できません。
結論
著者は各方向の難易度を評価しています:非英語モデルは比較的容易、幻覚問題は根深い、速度とコストは永遠の課題、新しいアーキテクチャとハードウェアは必然だが困難です。一部の問題は政策やユーザー体験など非技術的な知恵も必要です。より多くの分野横断的な人材の参加を期待しています。