AI News HubLIVE
サイト内リライト3 分で読了

LlamaIndex「legal-kb」:retrieve、find、read、grepツールを使ったIndex v2上のエージェント的検索

LlamaIndexは、エージェント的検索パターンを示す公開リファレンスアプリケーション「legal-kb」をリリースしました。このアプリは、AIエージェントにファイルシステム風のツール(ハイブリッドセマンティック検索、ファイル検索、読み取り、grep)を提供し、自動バージョン管理と視覚的な引用をサポートします。

ソースMarkTechPost著者: Michal Sutter

LlamaIndexは、GitHub上で公開リファレンスアプリケーション「legal-kb」を公開しました。これは法律文書向けの知識ベースであり、LlamaIndex Index v2(LlamaParseプラットフォーム)を搭載しています。このプロジェクトは、「Retrieval Harness」と呼ばれるエージェント的検索パターンを実演しています。

従来の単発検索とは異なり、このアプローチではエージェントにファイルシステム風のツールを提供し、大規模で進化する知識ベースを自律的に探索してタスクを解決します。ツールはエンジニアが慣れ親しんだ操作を模倣しています:セマンティック検索とキーワード検索、正規表現grep、ファイル検索、ファイル読み取りです。

legal-kbはライブラリではなく、TanStack Startで構築された実際のWebアプリケーションです。ログイン後、プロジェクトを作成し、ファイルをアップロードしてエージェントとチャットできます。各プロジェクトは管理対象のLlamaCloud Index v2にミラーリングされます。アップロードされたファイルはバックグラウンドで自動的に解析・インデックス化され、チャットエージェントは各ターンでそのインデックスをリアルタイムにクエリします。

Retrieval Harnessは、文書に対する永続的なデータパイプラインを提供します。データソースに接続し、インデックス化し、最新状態を維持します。このパイプライン上に、エージェント用のツールセットを公開します。これらのツールは意図的にファイルシステム操作に近く、エージェントはファイルの一覧表示、ファイルの読み取り、ファイル内のgrep、ハイブリッド検索を実行できます。ツールは汎用的なため、独自のエージェントに組み込むことも可能です。

エージェントは4つのツールを持ち、それぞれIndex v2の検索APIに対応します:

  • retrieve:ハイブリッドセマンティック検索を実行、オプションで再ランキングとメタデータフィルタリング。
  • findFiles:ファイル名の完全一致または部分一致で検索、自動ページネーション。
  • readFile:ファイルの生の内容をオフセットと長さのウィンドウで読み取り。
  • grepFile:ファイル内でパターンに一致する部分を検索し、文字位置を返す。

システムプロンプトは実行順序を強制します。エージェントはまずfindFilesを呼び出して文書インベントリを確立し、次にretrieveで絞り込み、最後にreadFileまたはgrepFileで正確な文言を確認してから引用します。

アップロードのパイプラインは明確です。ファイルはLlamaCloudのソースディレクトリにプッシュされ、Prismaを介してPostgreSQLに記録されます。インデックス同期は非同期で行われ、UIが準備完了までポーリングします。バージョン管理は(プロジェクト、ファイル名)の組み合わせに基づき、同じファイルを再アップロードするとv1、v2、v3が並存します。検索レイヤーはバージョンメタデータフィールドでフィルタリングできるため、知識ベース自体のバージョン管理が可能です。

エージェントはVercel AI SDK 6のToolLoopAgentを使用し、OpenAIまたはAnthropicのモデルを選択できます(ユーザーがAPIキーを提供)。推論はストリーミングされ、Claudeモデルは拡張思考、OpenAI推論モデルは中程度の推論努力を使用します。

回答には視覚的な引用が含まれます。各検索チャンクには短いID(例:cite:c7f2qa)が割り当てられ、エージェントは回答内にインラインで引用し、UIはクリック可能な引用チップを表示します。チップをクリックすると、引用テキストを囲むバウンディングボックス付きのソースページスクリーンショットが開きます。

従来の単発RAGと比較して、エージェント的検索ハーネスは複数の次元で異なります:検索フローは単発のベクトル検索ではなくマルチステップのツールループ、検索モードはハイブリッド・キーワード・正規表現、コンテキストは固定トップkではなくファイル全体のオンデマンド読み取り、フレッシュネスは静的ではなくパイプラインによる同期とバージョン管理、精度制御は露出。

この設計は、エージェントが大規模な文書セットをナビゲートする必要がある領域(法律やフィンテックなど)を対象としています。例えば、契約に関する質問に対してエージェントはファイルをリストし、検索を実行し、該当条項をgrepして正確な回答と引用を提供します。デューデリジェンスでは、ファイル名で検索し、各候補を読み取り、条項をクロスチェックします。バージョン管理により、特定のバージョンに対するクエリや変更の追跡が可能です。

legal-kbは、Index v2の検索能力とエージェントフレームワークを組み合わせる重要なリファレンス実装であり、高度な文書QAシステム構築の青写真を提供します。