2026-06-21 14:52 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

Crawlee for Python：構建包含機器人處理、鏈接圖和RAG分塊導出的網絡爬取管道

本教程演示如何使用Crawlee for Python從零搭建完整的網絡爬取工作流，包括設置本地演示網站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler進行爬取，提取標題、元數據、產品字段和JavaScript渲染的卡片，並捕獲全頁截圖。隨後規範化數據、構建鏈接圖，導出JSON、CSV和RAG就緒的JSONL分塊。

來源MarkTechPost作者: Sana Hassan

在本教程中，我們將使用Crawlee for Python構建一個完整的網絡爬取管道，從設置到生成AI就緒的輸出。首先，我們生成本地演示網站，然後使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler對其進行爬取。這些爬蟲能夠提取標題、元數據、產品字段以及由JavaScript渲染的卡片內容，並捕獲全頁截圖。

我們採用HTTP優先的爬取策略，因為HTTP爬蟲輕量且高效。只有那些需要JavaScript渲染的頁面才使用瀏覽器爬取。每個爬蟲都會提取URL、標題、頁面類型、文本摘要、出站鏈接以及頁面特定元數據。

例如，使用BeautifulSoupCrawler時，可以設置最大請求數：crawler = BeautifulSoupCrawler(max_requests_per_crawl=20)。之後，我們對數據進行規範化，構建鏈接圖，並導出為JSON、CSV和RAG就緒的JSONL分塊格式，為後續處理做好準備。