2026-06-22 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 15:16 UTC+8

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智能體框架中，實時對問題和拉取請求進行分類，性能媲美閉源模型，僅需硬件電費成本。

2026年6月，隨着Anthropic移除其旗艦閉源模型Claude Fable 5，業界猛然意識到閉源模型可能隨時被收回或停用。對於正在將業務建立在AI之上的企業來説，擁有自主的AI棧並能夠在本地運行模型變得比以往任何時候都更加重要。正是在這種背景下，OpenClaw的維護者Onur Solmaz利用手頭的NVIDIA GB10 DGX Spark（128GB統一內存）開發了一個名為localpager的系統，旨在使用本地開源模型對OpenClaw倉庫中的問題和拉取請求（PR）進行實時分類和分派。

localpager系統的核心是一個基於pi智能體框架的代理，它能夠使用本地模型（如Gemma和Qwen）來執行分類任務。與傳統方法不同，該代理不僅接收PR的標題、正文和部分差異，還可以選擇使用一個只讀的shell（reposhell）來檢查代碼庫，從而做出更準確的判斷。reposhell模擬了bash環境，但嚴格限制為只讀操作（如ls、cat、grep、git show等），所有寫入和網絡命令都被拒絕。這種設計有效防止了提示注入攻擊，確保模型不會執行非預期的操作。一個具體的例子是，當處理一個關於Kimi工具調用重寫的PR時，Qwen模型通過reposhell查看了擴展目錄的package.json，發現實際上是Kimi提供者插件，從而正確地將標籤從coding_agent_integrations修正為inference_api和tool_calling。

在模型選擇上，團隊測試了gemma-4-26b-a4b和qwen3.6-35b-a3b兩個模型，並在330個問題和PR的評估集上進行了性能對比。評估結果顯示，Gemma在召回率上表現更優（0.905），且處理速度更快（每行僅1.41秒），支持高達16個併發；而Qwen在精度上更勝一籌（0.831），假陽性更少（105.7 vs 227.0），精確匹配率更高（0.540）。作為參考，DeepSeek-V4-Flash雖然精度最高（0.938），但速度極慢（每行144秒），且僅支持單併發，不適合實時處理。此外，Gemma在GB10上通過NVFP4量化可以輕鬆達到每秒700輸出令牌的聚合吞吐量，展現了本地推理的巨大潛力。

整個系統的架構是半智能體化的。分類部分由模型以智能體方式完成，而通知發送則採用確定性規則，以降低推理負載並提高響應速度。工作流程如下：首先，使用gitcrawl將倉庫本地鏡像，新創建的問題或PR被標準化後寫入SQLite數據庫。隨後，工作器從隊列中領取作業，構建包含完整上下文（標題、正文、標籤、作者狀態以及可選的評論和差異）的對象，並將其渲染為提示傳遞給localpager-agent。代理可以思考並使用reposhell，但最終必須按照定義的模式輸出分類結果。結果存儲回數據庫，並根據用户配置的通知策略（例如只通知特定主題）通過Discord發送。

這一實踐有力地證明了本地模型在現實應用中的價值。它們不僅能夠在無需閉源模型的情況下提供實時、準確的問題分類，而且運行成本極低（僅需電力），為用户提供了完全自主可控的AI解決方案。隨着本地模型能力的不斷提升，類似的應用將會越來越普遍。