2026-06-21 14:52 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

Crawlee for Python：構建包含機器人處理、連結圖和RAG分塊匯出的網路爬取管道

本教程演示如何使用Crawlee for Python從零搭建完整的網路爬取工作流，包括設定本地演示網站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler進行爬取，提取標題、後設資料、產品欄位和JavaScript渲染的卡片，並捕獲全頁截圖。隨後規範化資料、構建連結圖，匯出JSON、CSV和RAG就緒的JSONL分塊。

來源MarkTechPost作者: Sana Hassan

在本教程中，我們將使用Crawlee for Python構建一個完整的網路爬取管道，從設定到生成AI就緒的輸出。首先，我們生成本地演示網站，然後使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler對其進行爬取。這些爬蟲能夠提取標題、後設資料、產品欄位以及由JavaScript渲染的卡片內容，並捕獲全頁截圖。

我們採用HTTP優先的爬取策略，因為HTTP爬蟲輕量且高效。只有那些需要JavaScript渲染的頁面才使用瀏覽器爬取。每個爬蟲都會提取URL、標題、頁面型別、文本摘要、出站連結以及頁面特定後設資料。

例如，使用BeautifulSoupCrawler時，可以設定最大請求數：crawler = BeautifulSoupCrawler(max_requests_per_crawl=20)。之後，我們對資料進行規範化，構建連結圖，並匯出為JSON、CSV和RAG就緒的JSONL分塊格式，為後續處理做好準備。