ラージ・アクション・モデル(LAM)vs エージェンティックLLM:本当の違いは?
ラージ・アクション・モデル(LAM)とエージェンティックLLMは、AIにおいて実際上重要な違いがあるにもかかわらず、しばしば混同されています。エージェンティックLLMは外部の仕組みで行動能力を得るのに対し、LAMは最初から実行可能な行動を生成するように訓練されています。この記事では、その違いを明確にし、それぞれをいつ使うべきかを解説します。
AIに「メールを推敲して送信して」と指示したとき、システムによって結果が異なります。チャットボットはやり方を説明するだけ、エージェンティックLLMは受信箱を開こうとしますが時々誤動作し、LAMはただそれを実行し、確認して次に進みます。この違いは、ラージ・アクション・モデル(LAM)とエージェンティックLLMの本質的な差を示しています。
エージェンティックLLMは、本質的には言語モデルを推論ループとツールの中に配置したものです。これは「ReAct(推論、行動、観察)」と呼ばれるループに従いますが、行動能力は完全に外部の枠組みに依存しています。その枠組みを取り除けば、ただのチャットボットに戻ります。このアーキテクチャの利点は柔軟性ですが、信頼性に欠け、ツールの誤選択、パラメータの幻覚、無限ループなどの問題が発生しやすいです。
一方、LAMは異なるアプローチをとります。訓練の初日から、正しく実行可能な行動を生成することが主目的です。訓練データはウェブテキストではなく、クリック、API呼び出し、UI操作、マルチステップタスクの完了といった行動軌跡です。例えば、SalesforceのxLAM-1Bは10億パラメータのモデルでありながら、関数呼び出しのベンチマークで175倍大きいGPT-3.5を上回ります。LAMの「知覚-計画-行動-学習」サイクルは、固定された行動空間で優れた性能を発揮します。
実際のアプリケーションでは、最も強力なシステムはどちらかを選ぶのではなく、両方を組み合わせます。エージェンティックLLMを推論やオープンな解釈に使い、支払いやデータ変更などの高リスクな行動はLAMに任せます。選択の基準は、行動空間がオープンかクローズかです。行動が既知で固定されていればLAMが信頼性、速度、コストで優れ、タスクが未定義で変更が多い場合はエージェンティックLLMの柔軟性が活きます。よくある質問への回答も提供されています。LAMは単なるファインチューニングされたLLMではありません。新しいチームはまずエージェンティックLLMから始めるべきで、両者は競合するものではなく補完し合います。