2026-06-21 14:52 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

Crawlee for Python：构建包含机器人处理、链接图和RAG分块导出的网络爬取管道

本教程演示如何使用Crawlee for Python从零搭建完整的网络爬取工作流，包括设置本地演示网站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler进行爬取，提取标题、元数据、产品字段和JavaScript渲染的卡片，并捕获全页截图。随后规范化数据、构建链接图，导出JSON、CSV和RAG就绪的JSONL分块。

来源MarkTechPost作者: Sana Hassan

在本教程中，我们将使用Crawlee for Python构建一个完整的网络爬取管道，从设置到生成AI就绪的输出。首先，我们生成本地演示网站，然后使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler对其进行爬取。这些爬虫能够提取标题、元数据、产品字段以及由JavaScript渲染的卡片内容，并捕获全页截图。

我们采用HTTP优先的爬取策略，因为HTTP爬虫轻量且高效。只有那些需要JavaScript渲染的页面才使用浏览器爬取。每个爬虫都会提取URL、标题、页面类型、文本摘要、出站链接以及页面特定元数据。

例如，使用BeautifulSoupCrawler时，可以设置最大请求数：crawler = BeautifulSoupCrawler(max_requests_per_crawl=20)。之后，我们对数据进行规范化，构建链接图，并导出为JSON、CSV和RAG就绪的JSONL分块格式，为后续处理做好准备。