AI News HubLIVE
サイト内リライト4 分で読了

LLMを搭載した自律エージェント

本記事では、大規模言語モデル(LLM)を中核とする自律エージェントシステムを探求する。システムは計画(タスク分解と自己反省)、記憶(短期:コンテキスト内学習、長期:外部ベクトルストア)、ツール使用(外部API呼び出し)の3つの主要コンポーネントで構成される。ChemCrowや生成エージェントなどのケーススタディ、AutoGPT、GPT-Engineer、BabyAGIなどの概念実証を紹介し、有限コンテキストウィンドウなどの課題についても議論する。

ソースLilian Weng

自律エージェントは人工知能の分野で有望な方向性であり、大規模言語モデル(LLM)を中核コントローラーとして活用することで大きな可能性を示している。LLMと計画、記憶、ツール使用などの主要コンポーネントを組み合わせることで、これらのエージェントは簡単な質問応答から複雑な科学実験まで様々なタスクを実行できる。

計画はエージェントが複雑なタスクを処理するための基盤であり、タスク分解と自己反省の2つの重要なプロセスを含む。タスク分解はChain of Thought(CoT)やTree of Thoughts(ToT)などの手法を用いて大きなタスクをより小さなサブゴールに分割し、エージェントが段階的に問題を解決できるようにする。CoTは複雑なタスクにおけるモデルの性能を向上させる標準的なプロンプト手法となっており、モデルに「ステップバイステップで考える」ように指示することで、テスト時の計算を活用して困難なタスクをより小さなステップに分解する。ToTはCoTを拡張し、各ステップで複数の推論可能性を探索してツリー構造を作成し、幅優先探索や深さ優先探索を使用して状態を評価する。自己反省はエージェントが過去の行動から学習することを可能にし、ReAct、Reflexion、Chain of Hindsight(CoH)などのフレームワークを通じて意思決定を継続的に改善する。ReActは推論と行動をLLMに統合し、アクションスペースをタスク固有の離散アクションと言語スペースの組み合わせに拡張することで、モデルが環境と対話し、推論トレースを生成できるようにする。Reflexionは動的メモリと自己反省能力をエージェントに装備し、強化学習設定を使用して、報酬モデルがバイナリ報酬を提供し、エージェントがヒューリスティック関数に基づいて環境をリセットするかどうかを決定する。CoHは、過去の出力とそのフィードバックをモデルに提示することで、モデルが自身の出力を改善することを促進し、アルゴリズム蒸留(Algorithm Distillation)が強化学習タスクの複数エピソードトレジェクトリに同じアイデアを適用する。

記憶システムはエージェントに知識を永続化する能力を提供する。短期記憶はコンテキスト内学習に相当し、Transformerモデルのコンテキストウィンドウ長に制限される。一方、長期記憶は外部ベクトルデータベースを介して実現され、最大内積探索(MIPS)による高速検索をサポートする。一般的なMIPSアルゴリズムには局所性鋭敏型ハッシュ(LSH)、近似最近傍探索(ANNOY)、階層型ナビゲーション可能小世界(HNSW)、Facebook AI類似度検索(FAISS)、スケーラブル最近傍探索(ScaNN)などがある。これらのアルゴリズムは再現率と速度のバランスをとり、エージェントが大量のストレージから関連記憶を効率的に検索できるようにする。人間の脳の記憶タイプをAIシステムにマッピングすると、感覚記憶は生入力の埋め込み表現、短期記憶はコンテキスト内学習、長期記憶は外部ベクトルストアに対応する。

ツール使用はエージェントが自身の能力を超えるための鍵である。外部APIを呼び出すことで、エージェントはリアルタイム情報の取得、コードの実行、専有データソースへのアクセスなどが可能になる。MRKL(Modular Reasoning, Knowledge and Language)アーキテクチャはLLMをルーターとして使用し、クエリを最適な専門家モジュールに振り分ける。これらのモジュールはニューラルネットワークまたは電卓や通貨変換器、天気APIなどのシンボリックシステムである。実験では、LLMがいつ、どのようにツールを使用するかを正しく識別することに課題があることが示されており、特に口頭の算数問題を扱う際に顕著である。TALMとToolformerは言語モデルを微調整して外部ツールAPIの使用を学習し、API呼び出しアノテーションが出力品質を向上させるかどうかに基づいてデータセットを拡張する。ChatGPTプラグインとOpenAI API関数呼び出しは、ツール使用能力が実際に動作する優れた例である。HuggingGPTはChatGPTをタスクプランナーとして使用し、モデルの説明に基づいてHuggingFaceプラットフォームからモデルを選択し、実行結果に基づいて応答を生成するフレームワークであり、タスク計画、モデル選択、タスク実行、応答生成の4つの段階からなる。API-Bankはツール拡張型LLMの性能を評価するベンチマークであり、53の一般的なAPIツール、完全なワークフロー、および264の注釈付きダイアログを含み、エージェントのツール使用能力をAPI呼び出し、API検索、API計画の3つのレベルで評価する。

ケーススタディはこれらの技術の実際の応用を示している。ChemCrowは化学分野のエージェントで、有機合成、創薬、材料設計のための13の専門ツールを統合している。興味深いことに、LLMベースの評価ではGPT-4とChemCrowの性能がほぼ同等であると結論付けられたが、専門家による人間評価ではChemCrowが大幅に優れており、深い専門知識を必要とする領域でLLMが自身の性能を評価することに潜在的な問題があることを示している。Boikoらの研究は、LLMを活用した科学発見エージェントを探求し、複雑な科学実験の自律的な設計、計画、実行を可能にしており、例えば新規抗癌剤の開発において、モデルはトレンド調査、標的選択、化合物の同定、合成の試行といった推論ステップを実行した。同時に、違法薬物や生物兵器に関するリスクも議論されており、11件のうち4件の合成リクエストが受け入れられた。生成エージェント(Generative Agents)は25の仮想キャラクターがサンドボックス環境で生活するシミュレーションであり、各キャラクターはLLMによって駆動され、記憶ストリーム、検索モデル、反省メカニズムを持つ。記憶ストリームはすべての経験を記録し、検索モデルは関連性、新しさ、重要度に基づいてコンテキストを提供し、反省メカニズムは記憶をより高レベルの推論に統合して将来の行動を導く。

概念実証プロジェクトであるAutoGPT、GPT-Engineer、BabyAGIは、LLMエージェントの可能性をさらに示している。AutoGPTは大規模言語モデルが自律エージェントを駆動する能力を示す実験的なオープンソースアプリケーションであり、インターネットアクセス、長期メモリ管理、GPT-3.5エージェントの委任、ファイル出力などの機能を備え、様々なタスクを実行するためのコマンドリストを提供する。GPT-Engineerは自然言語の記述から完全なコードリポジトリを生成し、まずタスクの明確化を行い、次にすべてのコードを含むファイルを生成する。BabyAGIはタスク管理と実行に特化し、シンプルなタスク駆動型フレームワークを構築する。

有望である一方、現在のシステムは依然として課題に直面している。最大の制約は限られたコンテキストウィンドウであり、履歴情報の包含や長期学習に影響を与える。システム設計はこの限られた通信帯域幅で動作する必要があり、自己反省などのメカニズムは長いまたは無限のコンテキストウィンドウがあれば大きな恩恵を受ける。また、LLM出力の安定性や外部ツール呼び出しの信頼性も改善が必要な分野である。研究が進むにつれて、これらの課題は徐々に解決され、LLMを搭載した自律エージェントはさらに多くの分野で重要な役割を果たすことが期待される。