LLM推論能力向上のための推論時スケーリングの分類
推論時スケーリングは、デプロイされたLLMの回答品質を向上させる最も効果的な方法の1つです。本記事では、チェーン・オブ・ソート、自己一貫性、ベスト・オブ・Nランキング、検証器付きリジェクションサンプリング、自己改良、解経路探索など、様々な推論時スケーリング手法を明確に分類し、最近の論文を概説します。著者は、関連する書籍の章を執筆する際に行った個人的な実験も共有しています。
推論時スケーリング(インファレンススケーリング)は、デプロイされた大規模言語モデル(LLM)の回答品質と正確性を向上させる最も効果的な手法の1つとなっています。その考え方は単純です。推論時(モデルがテキストを生成する際)に少し多くの計算リソースと時間を費やすことで、より良い回答を得られるというものです。現在、主要なLLMプロバイダはすべて何らかの推論時スケーリングを採用しており、関連する学術文献も急速に増えています。
本記事では、著者が3月に執筆した推論時スケーリングの概要をさらに発展させ、異なるアプローチを明確なカテゴリに分類し、ここ数ヶ月に登場した最新の研究を紹介します。著者は「推論モデルをゼロから構築する」という書籍の一章として推論時スケーリングを執筆する過程で、これらの手法の基本的なバリエーションを多数実験しました。ハイパーパラメータチューニングを含む数千回の実行を経て、どの手法を章で詳しく扱うべきかを決定しました。この章は最終的に2つに分割され、アーリーアクセスプログラムで公開されています。著者は特にその出来栄えに満足しており、ベースモデルの精度を約15%から52%に引き上げることができました。
記事では以下の主要な手法を詳細に説明しています:チェーン・オブ・ソートプロンプティングはモデルに段階的な推論を促し、複雑な問題の解決能力を高めます;自己一貫性は複数の推論経路をサンプリングし、最も一貫性のある回答を選択することで信頼性を向上させます;ベスト・オブ・Nランキングは複数の候補回答を生成し、スコアリング機構に基づいて最適なものを選択します;検証器付きリジェクションサンプリングは検証器モデルを用いてサンプリング結果をフィルタリングし、高品質な回答のみを採用します;自己改良はモデル自身に生成した回答を振り返らせ、改善させます;解経路探索は解空間を探索し、最適な推論経路を見つけます。これらは組み合わせて使用することでさらなる性能向上が期待できます。
記事の最後では、プロプライエタリなLLMが実際にどのような推論時スケーリング手法を採用しているかについても触れられており、読者に広い視野を提供します。著者は今後、GitHub上でコード実装を追加していく予定であり、本記事は推論時スケーリングを理解し適用する上での重要なリソースとなるでしょう。また、推論時スケーリングの概念は古典的な機械学習のアンサンブル法にも通じるものであり、OpenAIのo1モデルの発表によって再び注目を集めています。本記事はモデル重みを変更しない訓練後スケーリング技術に焦点を当てており、エンジニアや研究者の実践的な導入に役立つ内容です。