失敗を安全にする:制約付きで検証可能なオープンウェブデータ収集のためのエージェントフレームワーク
LLMが生成する自由形式コードを型付きJSONコレクター設定に置き換え、6種類のコレクター分類法、テンプレートとユーティリティ関数の制約、静的Airflow DAG実行、ルールベースの品質チェック、構造化フィードバック補正を組み合わせたフレームワークを提案。実験では、検証済みタスクにおいて実行段階のLLMトークン消費がゼロで、平均処理時間が最も低いことを示した。
大規模言語モデル(LLM)とエージェントは自然言語の要件からウェブスクレイパーを生成できますが、依存関係エラー、セレクタの破損、スキーマの不一致、ページ構造の不均一性により、直接生成は信頼性に欠けます。本論文では、制約付きで検証可能なエージェントフレームワークを提案し、LLMの出力を自由形式のコードから型付きJSONコレクター設定に移行します。このフレームワークは、6種類のコレクター分類法、テンプレートとユーティリティ関数の制約、静的Airflow DAG実行、ルールベースの品質チェック、構造化フィードバック補正を組み合わせています。
フレームワークの核となるアイデアは、LLMの生成能力を設計フェーズに限定し、実行フェーズでは使用しないことです。収集要件を型付きJSON設定に変換することで、リスト、単一ページ、ページネーションなどの一般的なデータ収集シナリオをカバーする6つの定義済みコレクタータイプを活用できます。テンプレートとユーティリティ関数の制約により、設定の正当性と効率が保証され、静的Airflow DAG実行により実行時のLLM呼び出しが完全に排除され、推論遅延とトークン消費がなくなります。品質保証面では、ルールベースの品質チェックで収集結果を検証し、構造化されたフィードバックループを通じて設定を反復的に修正し、所定の品質基準を満たすまで調整します。
研究チームは138のタスクで実験を行い、多様なデータ収集シナリオをカバーしました。結果は、この分類法が記述ベースの要件タイピングを効果的にサポートする一方で、安定した設定のインスタンス化には初期記述を超えたソースフィールドや実行制約の補充が必要であることを示しています。80の独立したソース検証済みタスクでは、フレームワークは実行段階のLLMトークン消費ゼロで、平均ウォールクロックタイムが最も低く、中程度のワンショット品質を犠牲にして再利用可能で決定論的かつ検証可能な実行パスを提供します。これは、単一実行の品質が完全にLLM主導のアプローチよりもやや劣る可能性があるものの、反復性と信頼性により定期的な収集タスクに非常に適していることを意味します。
これらの結果により、本フレームワークは繰り返し行われるオープンウェブデータ収集のための再利用可能で低コストかつ検証可能な実行パスとして位置づけられます。実行時のLLM呼び出しを排除し、構造化された検証と補正メカニズムを採用することで、長期的なデータ収集の信頼性と効率を大幅に向上させます。この研究は、安全で効率的なAIエージェントシステムの構築に重要な示唆を与え、特にニュースアグリゲーション、価格監視、学術情報追跡など、頻繁なデータ更新が必要なアプリケーションに適しています。