構建本地AI系統:Qwen3.6與MCP
本文介紹如何利用Qwen3.6-35B-A3B模型和模型上下文協議(MCP)構建本地AI系統,包括模型架構、硬體需求、服務部署以及一個實際的GitHub開發者助手示例。
構建本地AI系統:Qwen3.6與MCP
在本地AI開發中,開發者常遇到一個瓶頸:模型能夠推理、生成程式碼、回答問題,但無法直接操作外部工具,如查詢資料庫、呼叫API或管理GitHub倉庫。傳統做法是為每個工具編寫自定義的Python包裝器,維護成本高。模型上下文協議(MCP)由Anthropic提出,旨在解決此問題。MCP是一個開放標準,允許將工具定義為MCP伺服器,任何相容的客戶端、模型或框架都可以自動發現並呼叫這些工具,無需自定義整合程式碼。
Qwen3.6-35B-A3B模型架構
Qwen3.6-35B-A3B是目前最適合此類工作的本地模型。它擁有262,144個token的上下文視窗,採用混合專家(MoE)架構,總引數量35B,但每次前向傳播僅啟用3B引數(A3B),因此在普通消費級硬體上也能執行。模型由40層組成,每層以3:1的比例交替使用門控DeltaNet層和門控注意力層。DeltaNet是一種線性注意力機制,能高效處理長序列,而門控注意力層則負責深度關係推理。這種設計使其在代理任務中表現出色,尤其是在處理大型程式碼倉庫時。
Qwen3.6還經過了專門的代理訓練,支援“思考保留”(preserve_thinking)功能,能夠在多輪對話中保留前一輪的推理痕跡,避免重複計算。這大大提升了代理在多步任務中的效率。
系統需求與部署
模型有三種部署方式:
- GPU推理:推薦生產環境。bfloat16格式需要約70GB視訊記憶體,Q4量化後約20-24GB。單張RTX 4090(24GB)可執行Q4量化版。
- CPU/混合推理:透過KTransformers可將計算解除安裝至CPU,適合沒有大視訊記憶體GPU的開發者,但響應延遲較高。
- 小模型測試:可使用Qwen2.5-7B等小模型進行功能驗證,整合程式碼相同。
軟體環境需要Python 3.11+以及openai、qwen-agent、mcp等庫。推理服務可選用SGLang(推薦長上下文任務)或vLLM,它們都提供OpenAI相容的API。
構建GitHub開發助手
文章詳細演示了一個本地GitHub代理的構建過程。該代理利用MCP連線GitHub伺服器,能夠讀取倉庫的開放問題、定位相關程式碼、編寫修復方案並建立Pull Request。整個流程均在本地硬體上執行,無需雲端依賴。
實現方式有兩種:一是使用Qwen-Agent庫自動處理MCP連線和對話管理;二是直接使用MCP Python SDK進行更精細的控制。文章給出了完整的程式碼示例,包括環境配置、伺服器設定以及代理邏輯。
總之,MCP與Qwen3.6的結合為本地AI代理開發提供了一條高效、可擴充套件的路徑,開發者無需再為每個工具編寫適配程式碼,即可構建功能強大的自動化工作流。