我們讓本地模型免費(*)為OpenClaw倉庫進行問題分類!
OpenClaw維護者利用本地開源模型(Gemma、Qwen)在智慧體框架中,即時對問題和拉取請求進行分類,效能媲美閉源模型,僅需硬體電費成本。
2026年6月,隨著Anthropic移除其旗艦閉源模型Claude Fable 5,業界猛然意識到閉源模型可能隨時被收回或停用。對於正在將業務建立在AI之上的企業來說,擁有自主的AI棧並能夠在本地執行模型變得比以往任何時候都更加重要。正是在這種背景下,OpenClaw的維護者Onur Solmaz利用手頭的NVIDIA GB10 DGX Spark(128GB統一記憶體)開發了一個名為localpager的系統,旨在使用本地開源模型對OpenClaw倉庫中的問題和拉取請求(PR)進行即時分類和分派。
localpager系統的核心是一個基於pi智慧體框架的代理,它能夠使用本地模型(如Gemma和Qwen)來執行分類任務。與傳統方法不同,該代理不僅接收PR的標題、正文和部分差異,還可以選擇使用一個只讀的shell(reposhell)來檢查程式碼庫,從而做出更準確的判斷。reposhell模擬了bash環境,但嚴格限制為只讀操作(如ls、cat、grep、git show等),所有寫入和網路命令都被拒絕。這種設計有效防止了提示注入攻擊,確保模型不會執行非預期的操作。一個具體的例子是,當處理一個關於Kimi工具呼叫重寫的PR時,Qwen模型透過reposhell檢視了擴充套件目錄的package.json,發現實際上是Kimi提供者外掛,從而正確地將標籤從coding_agent_integrations修正為inference_api和tool_calling。
在模型選擇上,團隊測試了gemma-4-26b-a4b和qwen3.6-35b-a3b兩個模型,並在330個問題和PR的評估集上進行了效能對比。評估結果顯示,Gemma在召回率上表現更優(0.905),且處理速度更快(每行僅1.41秒),支援高達16個併發;而Qwen在精度上更勝一籌(0.831),假陽性更少(105.7 vs 227.0),精確匹配率更高(0.540)。作為參考,DeepSeek-V4-Flash雖然精度最高(0.938),但速度極慢(每行144秒),且僅支援單併發,不適合即時處理。此外,Gemma在GB10上透過NVFP4量化可以輕鬆達到每秒700輸出令牌的聚合吞吐量,展現了本地推理的巨大潛力。
整個系統的架構是半智慧體化的。分類部分由模型以智慧體方式完成,而通知傳送則採用確定性規則,以降低推理負載並提高響應速度。工作流程如下:首先,使用gitcrawl將倉庫本地映象,新建立的問題或PR被標準化後寫入SQLite資料庫。隨後,工作器從佇列中領取作業,構建包含完整上下文(標題、正文、標籤、作者狀態以及可選的評論和差異)的物件,並將其渲染為提示傳遞給localpager-agent。代理可以思考並使用reposhell,但最終必須按照定義的模式輸出分類結果。結果儲存回資料庫,並根據使用者配置的通知策略(例如只通知特定主題)透過Discord傳送。
這一實踐有力地證明了本地模型在現實應用中的價值。它們不僅能夠在無需閉源模型的情況下提供即時、準確的問題分類,而且執行成本極低(僅需電力),為使用者提供了完全自主可控的AI解決方案。隨著本地模型能力的不斷提升,類似的應用將會越來越普遍。