使失敗安全:一種用於開放網路資料收集的受約束、可驗證的代理框架
提出一種框架,將LLM生成的自由格式程式碼替換為型別化的JSON收集器配置,結合六型別收集器分類法、模板和效用函式約束、靜態Airflow DAG執行、基於規則的質量檢查和結構化反饋糾正。實驗表明,在已驗證任務中,框架執行階段零LLM token消耗,且平均耗時最低。
大型語言模型(LLM)和智慧體能夠根據自然語言需求生成網路爬蟲,但直接生成因依賴錯誤、選擇器失效、模式不匹配和頁面結構異構而不可靠。本文提出一個受約束且可驗證的代理框架,將LLM輸出從自由格式程式碼轉變為型別化的JSON收集器配置。該框架結合了六種型別的收集器分類法、模板和效用函式約束、靜態Airflow有向無環圖(DAG)執行、基於規則的質量檢查以及結構化反饋糾正。
該框架的核心思想是將LLM的生成能力用於設計階段,而非執行階段。透過將收集需求轉化為型別化的JSON配置,框架能夠利用六種預定義的收集器型別(如列表、單頁、分頁等)來覆蓋常見的資料收集場景。模板和效用函式約束確保了配置的合法性和效率,而靜態Airflow DAG執行則完全消除了執行時的LLM呼叫,從而避免了推理延遲和token消耗。在質量保證方面,框架採用基於規則的質量檢查對收集結果進行驗證,並透過結構化反饋迴圈迭代修正配置,直到滿足預設的質量標準。
研究團隊在138個任務上進行了實驗,涵蓋多種資料收集場景。結果表明,該分類法能夠有效支援基於描述的需求型別化,但穩定的配置例項化還需要補充源欄位、執行約束等細節,而不僅僅是初始描述。在80個獨立源驗證的任務上,該框架實現了零執行階段LLM token消耗和最低的平均牆鍾時間,以適中的一次性質量換取了可重用、確定且可驗證的執行路徑。這意味著,雖然框架在單次執行中的質量可能略低於完全由LLM驅動的方案,但其重複性和可靠性使其特別適合定期採集任務。
這些結果將框架定位為一種可重用、低成本且可驗證的執行路徑,適用於重複的開放網路資料採集任務。透過消除執行時的LLM呼叫,並採用結構化的驗證和糾正機制,框架顯著提升了長期資料收集的可靠性和效率。該工作為構建安全、高效的AI代理系統提供了重要參考,尤其適用於需要頻繁更新資料的應用場景,如新聞聚合、價格監控和學術資訊跟蹤等。