AI News HubLIVE
サイト内リライト2 分で読了

AgentCrawl:AIエージェント向けの小さなセルフホスト型クローラ

AgentCrawl は、AIエージェント向けの軽量セルフホスト型クローラで、WebページやローカルドキュメントをクリーンなMarkdown、テキスト、リンク、メタデータなどに変換します。CLI、Pythonライブラリ、HTTP API、MCPサーバーを提供し、耐久性のあるクロール、ローカル状態、ダッシュボード、正直な障害報告を備えています。プロジェクトは初期段階であり、アクセス可能な公開コンテンツに焦点を当てています。

ソースHacker News AI著者: Kenchi010

AgentCrawl は、AIエージェントのために設計された小型のセルフホスト型クローリングツールです。生のHTMLが複雑でエージェントが扱いにくいという問題を解決するために、WebページやローカルドキュメントをクリーンなMarkdown形式に変換し、リンク、メタデータ、JSON-LDなどの情報も併せて提供します。このプロジェクトはCLI、Pythonライブラリ、HTTP API、MCP(Model Context Protocol)サーバーをサポートしており、開発者のローカル環境から本番Dockerデプロイまで幅広いシナリオで利用できます。

AgentCrawl の主な機能には、高品質なコンテンツ抽出が含まれます。これは、セマンティックコンテンツブロックをインテリジェントに選択し、スクリプト、スタイル、ナビゲーション、フッター、Cookieバナーなどのノイズ要素を除去し、テーブルやコードブロックを保持します。また、SQLiteを使用してタスク、イベント、チェックポイント、失敗リトライを管理する耐久性のあるクロール機能、キャッシュや使用統計を含むローカル状態管理、タスクの状態を監視する読み取り専用ダッシュボードも備えています。セキュリティ面では、robots.txtのサポート、SSRF保護、安全でないリダイレクトのブロック、プライベートネットワーク制御が組み込まれており、APIはデフォルトでBearer認証を要求します。

注目すべき点として、AgentCrawl はコミュニティ版の境界を明確にしています。つまり、Cloudflareなどのアンチボットチャレンジを回避しようとするのではなく、正直にclient_challengeエラーを報告します。これにより、プロジェクトはシンプルで誠実な姿勢を保ちつつ、より複雑な機能(管理ブラウザ、プロキシ、スケジュール、Webhook、チーム管理、エンタープライズ制御など)は将来の拡張版やホスト版に委ねています。抽出品質に関しては、コミュニティエンジンは安定したエージェント対応Markdownの生成に焦点を当てており、意味コンテナからメインコンテンツを選択し、ページの装飾を取り除き、テーブルやコードブロックを保持し、抽出元情報を添付します。現在、HTML、Markdown、プレーンテキスト、JSON、XML/Atom、PDF(オプションの拡張機能を使用)などのドキュメント形式をサポートしています。

プロジェクトはまだ初期段階ですが、安定した開発が進められており、詳細なドキュメント、コントリビューションガイド、ロードマップが用意されています。AIエージェントに信頼性の高いWebコンテキストを提供したい開発者にとって、AgentCrawl は注目に値する軽量なソリューションです。

AgentCrawl:AIエージェント向けの小さなセルフホスト型クローラ | AI News Hub