2026-06-22 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-23 15:16 UTC+8

我们让本地模型免费（*）为OpenClaw仓库进行问题分类！

OpenClaw维护者利用本地开源模型（Gemma、Qwen）在智能体框架中，实时对问题和拉取请求进行分类，性能媲美闭源模型，仅需硬件电费成本。

2026年6月，随着Anthropic移除其旗舰闭源模型Claude Fable 5，业界猛然意识到闭源模型可能随时被收回或停用。对于正在将业务建立在AI之上的企业来说，拥有自主的AI栈并能够在本地运行模型变得比以往任何时候都更加重要。正是在这种背景下，OpenClaw的维护者Onur Solmaz利用手头的NVIDIA GB10 DGX Spark（128GB统一内存）开发了一个名为localpager的系统，旨在使用本地开源模型对OpenClaw仓库中的问题和拉取请求（PR）进行实时分类和分派。

localpager系统的核心是一个基于pi智能体框架的代理，它能够使用本地模型（如Gemma和Qwen）来执行分类任务。与传统方法不同，该代理不仅接收PR的标题、正文和部分差异，还可以选择使用一个只读的shell（reposhell）来检查代码库，从而做出更准确的判断。reposhell模拟了bash环境，但严格限制为只读操作（如ls、cat、grep、git show等），所有写入和网络命令都被拒绝。这种设计有效防止了提示注入攻击，确保模型不会执行非预期的操作。一个具体的例子是，当处理一个关于Kimi工具调用重写的PR时，Qwen模型通过reposhell查看了扩展目录的package.json，发现实际上是Kimi提供者插件，从而正确地将标签从coding_agent_integrations修正为inference_api和tool_calling。

在模型选择上，团队测试了gemma-4-26b-a4b和qwen3.6-35b-a3b两个模型，并在330个问题和PR的评估集上进行了性能对比。评估结果显示，Gemma在召回率上表现更优（0.905），且处理速度更快（每行仅1.41秒），支持高达16个并发；而Qwen在精度上更胜一筹（0.831），假阳性更少（105.7 vs 227.0），精确匹配率更高（0.540）。作为参考，DeepSeek-V4-Flash虽然精度最高（0.938），但速度极慢（每行144秒），且仅支持单并发，不适合实时处理。此外，Gemma在GB10上通过NVFP4量化可以轻松达到每秒700输出令牌的聚合吞吐量，展现了本地推理的巨大潜力。

整个系统的架构是半智能体化的。分类部分由模型以智能体方式完成，而通知发送则采用确定性规则，以降低推理负载并提高响应速度。工作流程如下：首先，使用gitcrawl将仓库本地镜像，新创建的问题或PR被标准化后写入SQLite数据库。随后，工作器从队列中领取作业，构建包含完整上下文（标题、正文、标签、作者状态以及可选的评论和差异）的对象，并将其渲染为提示传递给localpager-agent。代理可以思考并使用reposhell，但最终必须按照定义的模式输出分类结果。结果存储回数据库，并根据用户配置的通知策略（例如只通知特定主题）通过Discord发送。

这一实践有力地证明了本地模型在现实应用中的价值。它们不仅能够在无需闭源模型的情况下提供实时、准确的问题分类，而且运行成本极低（仅需电力），为用户提供了完全自主可控的AI解决方案。随着本地模型能力的不断提升，类似的应用将会越来越普遍。