AI News HubLIVE
站內改寫2 分鐘閱讀

我們讓本地模型免費(*)為OpenClaw倉庫進行問題分類!

OpenClaw維護者利用本地開源模型(Gemma、Qwen)在智能體框架中,實時對問題和拉取請求進行分類,性能媲美閉源模型,僅需硬件電費成本。

2026年6月,隨着Anthropic移除其旗艦閉源模型Claude Fable 5,業界猛然意識到閉源模型可能隨時被收回或停用。對於正在將業務建立在AI之上的企業來説,擁有自主的AI棧並能夠在本地運行模型變得比以往任何時候都更加重要。正是在這種背景下,OpenClaw的維護者Onur Solmaz利用手頭的NVIDIA GB10 DGX Spark(128GB統一內存)開發了一個名為localpager的系統,旨在使用本地開源模型對OpenClaw倉庫中的問題和拉取請求(PR)進行實時分類和分派。

localpager系統的核心是一個基於pi智能體框架的代理,它能夠使用本地模型(如Gemma和Qwen)來執行分類任務。與傳統方法不同,該代理不僅接收PR的標題、正文和部分差異,還可以選擇使用一個只讀的shell(reposhell)來檢查代碼庫,從而做出更準確的判斷。reposhell模擬了bash環境,但嚴格限制為只讀操作(如ls、cat、grep、git show等),所有寫入和網絡命令都被拒絕。這種設計有效防止了提示注入攻擊,確保模型不會執行非預期的操作。一個具體的例子是,當處理一個關於Kimi工具調用重寫的PR時,Qwen模型通過reposhell查看了擴展目錄的package.json,發現實際上是Kimi提供者插件,從而正確地將標籤從coding_agent_integrations修正為inference_api和tool_calling。

在模型選擇上,團隊測試了gemma-4-26b-a4b和qwen3.6-35b-a3b兩個模型,並在330個問題和PR的評估集上進行了性能對比。評估結果顯示,Gemma在召回率上表現更優(0.905),且處理速度更快(每行僅1.41秒),支持高達16個併發;而Qwen在精度上更勝一籌(0.831),假陽性更少(105.7 vs 227.0),精確匹配率更高(0.540)。作為參考,DeepSeek-V4-Flash雖然精度最高(0.938),但速度極慢(每行144秒),且僅支持單併發,不適合實時處理。此外,Gemma在GB10上通過NVFP4量化可以輕鬆達到每秒700輸出令牌的聚合吞吐量,展現了本地推理的巨大潛力。

整個系統的架構是半智能體化的。分類部分由模型以智能體方式完成,而通知發送則採用確定性規則,以降低推理負載並提高響應速度。工作流程如下:首先,使用gitcrawl將倉庫本地鏡像,新創建的問題或PR被標準化後寫入SQLite數據庫。隨後,工作器從隊列中領取作業,構建包含完整上下文(標題、正文、標籤、作者狀態以及可選的評論和差異)的對象,並將其渲染為提示傳遞給localpager-agent。代理可以思考並使用reposhell,但最終必須按照定義的模式輸出分類結果。結果存儲回數據庫,並根據用户配置的通知策略(例如只通知特定主題)通過Discord發送。

這一實踐有力地證明了本地模型在現實應用中的價值。它們不僅能夠在無需閉源模型的情況下提供實時、準確的問題分類,而且運行成本極低(僅需電力),為用户提供了完全自主可控的AI解決方案。隨着本地模型能力的不斷提升,類似的應用將會越來越普遍。