2026-06-30 22:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 22:30 UTC+8

構建本地AI系統：Qwen3.6與MCP

本文介紹如何利用Qwen3.6-35B-A3B模型和模型上下文協議（MCP）構建本地AI系統，包括模型架構、硬體需求、服務部署以及一個實際的GitHub開發者助手示例。

來源KDnuggets作者: Shittu Olumide

構建本地AI系統：Qwen3.6與MCP

在本地AI開發中，開發者常遇到一個瓶頸：模型能夠推理、生成程式碼、回答問題，但無法直接操作外部工具，如查詢資料庫、呼叫API或管理GitHub倉庫。傳統做法是為每個工具編寫自定義的Python包裝器，維護成本高。模型上下文協議（MCP）由Anthropic提出，旨在解決此問題。MCP是一個開放標準，允許將工具定義為MCP伺服器，任何相容的客戶端、模型或框架都可以自動發現並呼叫這些工具，無需自定義整合程式碼。

Qwen3.6-35B-A3B模型架構

Qwen3.6-35B-A3B是目前最適合此類工作的本地模型。它擁有262,144個token的上下文視窗，採用混合專家（MoE）架構，總引數量35B，但每次前向傳播僅啟用3B引數（A3B），因此在普通消費級硬體上也能執行。模型由40層組成，每層以3:1的比例交替使用門控DeltaNet層和門控注意力層。DeltaNet是一種線性注意力機制，能高效處理長序列，而門控注意力層則負責深度關係推理。這種設計使其在代理任務中表現出色，尤其是在處理大型程式碼倉庫時。

Qwen3.6還經過了專門的代理訓練，支援“思考保留”（preserve_thinking）功能，能夠在多輪對話中保留前一輪的推理痕跡，避免重複計算。這大大提升了代理在多步任務中的效率。

系統需求與部署

模型有三種部署方式：

GPU推理：推薦生產環境。bfloat16格式需要約70GB視訊記憶體，Q4量化後約20-24GB。單張RTX 4090（24GB）可執行Q4量化版。
CPU/混合推理：透過KTransformers可將計算解除安裝至CPU，適合沒有大視訊記憶體GPU的開發者，但響應延遲較高。
小模型測試：可使用Qwen2.5-7B等小模型進行功能驗證，整合程式碼相同。

軟體環境需要Python 3.11+以及openai、qwen-agent、mcp等庫。推理服務可選用SGLang（推薦長上下文任務）或vLLM，它們都提供OpenAI相容的API。

構建GitHub開發助手

文章詳細演示了一個本地GitHub代理的構建過程。該代理利用MCP連線GitHub伺服器，能夠讀取倉庫的開放問題、定位相關程式碼、編寫修復方案並建立Pull Request。整個流程均在本地硬體上執行，無需雲端依賴。

實現方式有兩種：一是使用Qwen-Agent庫自動處理MCP連線和對話管理；二是直接使用MCP Python SDK進行更精細的控制。文章給出了完整的程式碼示例，包括環境配置、伺服器設定以及代理邏輯。

總之，MCP與Qwen3.6的結合為本地AI代理開發提供了一條高效、可擴充套件的路徑，開發者無需再為每個工具編寫適配程式碼，即可構建功能強大的自動化工作流。