2026-06-30 22:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 22:30 UTC+8

构建本地AI系统：Qwen3.6与MCP

本文介绍如何利用Qwen3.6-35B-A3B模型和模型上下文协议（MCP）构建本地AI系统，包括模型架构、硬件需求、服务部署以及一个实际的GitHub开发者助手示例。

来源KDnuggets作者: Shittu Olumide

构建本地AI系统：Qwen3.6与MCP

在本地AI开发中，开发者常遇到一个瓶颈：模型能够推理、生成代码、回答问题，但无法直接操作外部工具，如查询数据库、调用API或管理GitHub仓库。传统做法是为每个工具编写自定义的Python包装器，维护成本高。模型上下文协议（MCP）由Anthropic提出，旨在解决此问题。MCP是一个开放标准，允许将工具定义为MCP服务器，任何兼容的客户端、模型或框架都可以自动发现并调用这些工具，无需自定义集成代码。

Qwen3.6-35B-A3B模型架构

Qwen3.6-35B-A3B是目前最适合此类工作的本地模型。它拥有262,144个token的上下文窗口，采用混合专家（MoE）架构，总参数量35B，但每次前向传播仅激活3B参数（A3B），因此在普通消费级硬件上也能运行。模型由40层组成，每层以3:1的比例交替使用门控DeltaNet层和门控注意力层。DeltaNet是一种线性注意力机制，能高效处理长序列，而门控注意力层则负责深度关系推理。这种设计使其在代理任务中表现出色，尤其是在处理大型代码仓库时。

Qwen3.6还经过了专门的代理训练，支持“思考保留”（preserve_thinking）功能，能够在多轮对话中保留前一轮的推理痕迹，避免重复计算。这大大提升了代理在多步任务中的效率。

系统需求与部署

模型有三种部署方式：

GPU推理：推荐生产环境。bfloat16格式需要约70GB显存，Q4量化后约20-24GB。单张RTX 4090（24GB）可运行Q4量化版。
CPU/混合推理：通过KTransformers可将计算卸载至CPU，适合没有大显存GPU的开发者，但响应延迟较高。
小模型测试：可使用Qwen2.5-7B等小模型进行功能验证，集成代码相同。

软件环境需要Python 3.11+以及openai、qwen-agent、mcp等库。推理服务可选用SGLang（推荐长上下文任务）或vLLM，它们都提供OpenAI兼容的API。

构建GitHub开发助手

文章详细演示了一个本地GitHub代理的构建过程。该代理利用MCP连接GitHub服务器，能够读取仓库的开放问题、定位相关代码、编写修复方案并创建Pull Request。整个流程均在本地硬件上运行，无需云端依赖。

实现方式有两种：一是使用Qwen-Agent库自动处理MCP连接和对话管理；二是直接使用MCP Python SDK进行更精细的控制。文章给出了完整的代码示例，包括环境配置、服务器设置以及代理逻辑。

总之，MCP与Qwen3.6的结合为本地AI代理开发提供了一条高效、可扩展的路径，开发者无需再为每个工具编写适配代码，即可构建功能强大的自动化工作流。