2026-06-27 19:21 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 21:45 UTC+8

使用本地編碼代理：開源模型與本地工具的實用指南

本文詳細介紹瞭如何搭建一個完全本地的編碼代理環境，使用開源工具和開放權重的大語言模型（如Qwen3.6）替代付費服務（如Claude Code和Codex）。涵蓋了本地模型的優勢、設置步驟、性能評估以及多種代理框架（Qwen-Code、Codex、Claude Code等）的選擇。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

許多讀者詢問我關於本地編碼代理的配置和實踐經驗。因此，我決定撰寫這篇教程，介紹如何使用開源工具和開放權重大語言模型（LLM）搭建一個生產級別的本地編碼代理。

本地編碼代理的核心是將LLM作為推理和代碼生成的引擎，而外圍的“編碼代理框架”則提供操作環境，使LLM能夠在本地項目中進行有意義的編碼工作。與GPT in Codex或Claude Code等專有服務相比，本地設置具有透明、可審查、免費（僅需硬件和電力成本）等優勢，並且完全由你掌控，可根據需求隨意修改框架。此外，它充滿樂趣！

儘管我目前日常仍主要使用Codex和Claude Code（以跟上不斷更新的工具和功能），但我已開始試用本地解決方案。本地方案的成本優勢明顯：如果你擁有硬件（如Mac Mini或DGX Spark），運行幾乎免費。隱私方面，例如處理收據時，我更傾向於使用本地模型，避免將數據發送至OpenAI或Anthropic。考慮到Anthropic曾限制其旗艦模型的性能，專有服務可能日益受限，掌握開放權重替代方案作為備份是明智之舉。

使用本地LLM和編碼代理的動機包括：固定成本（避免訂閲額度超限或API漲價）、可復現性（模型升級可能影響工作流）、離線使用（如無互聯網的飛行或寫作靜修）。

本文將重點介紹如何使用Qwen3.6模型與Qwen-Code框架。Qwen-Code是開源的（類似Codex），且Qwen模型針對該框架進行了優化。根據Nvidia的Polar論文，Qwen3.5-4B在Qwen-Code中表現最佳，最新Qwen3.6預計進一步提升。此外，其他框架如Codex、Claude Code和Cline也支持本地模型，本文也會簡要提及。

Qwen3.6 35B-A3B模型大小約22 GB，需要30-40 GB RAM，在M4 Mac Mini和DGX Spark上運行流暢。Cohere的基準測試顯示，它在同類尺寸模型中幾乎全面領先。該模型採用混合注意力機制，架構與Qwen3-Coder類似。替代方案包括Cohere的North Mini Code，也是同尺寸中的有力競爭者。

本地LLM的部署使用Ollama作為服務引擎，支持macOS、Linux和Windows。對於Mac，推薦使用MLX優化版本（如qwen3.6:35b-mlx），Linux則使用標準版本。安裝後可通過命令行或GUI下載模型。

在決定使用本地編碼代理前，建議進行速度和性能評估。可使用我提供的腳本ollama_speed_memory_bench.py，測試不同提示長度下的標記生成速度（tokens/sec）和內存佔用。例如，在macOS上運行：uv run speed-memory-benchmark/ollama_speed_memory_bench.py --model qwen3.6:35b-mlx。注意，若內存不足30 GB，可選用更小的模型如gemma4:e2b。

無論選擇哪種代理框架，本地設置都將為你提供前所未有的控制權、隱私保護和成本效益。開始搭建你的本地編碼代理吧！