2026-06-27 19:21 UTC+8站内改写2 分钟阅读更新: 2026-06-27 21:45 UTC+8

使用本地编码代理：开源模型与本地工具的实用指南

本文详细介绍了如何搭建一个完全本地的编码代理环境，使用开源工具和开放权重的大语言模型（如Qwen3.6）替代付费服务（如Claude Code和Codex）。涵盖了本地模型的优势、设置步骤、性能评估以及多种代理框架（Qwen-Code、Codex、Claude Code等）的选择。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

许多读者询问我关于本地编码代理的配置和实践经验。因此，我决定撰写这篇教程，介绍如何使用开源工具和开放权重大语言模型（LLM）搭建一个生产级别的本地编码代理。

本地编码代理的核心是将LLM作为推理和代码生成的引擎，而外围的“编码代理框架”则提供操作环境，使LLM能够在本地项目中进行有意义的编码工作。与GPT in Codex或Claude Code等专有服务相比，本地设置具有透明、可审查、免费（仅需硬件和电力成本）等优势，并且完全由你掌控，可根据需求随意修改框架。此外，它充满乐趣！

尽管我目前日常仍主要使用Codex和Claude Code（以跟上不断更新的工具和功能），但我已开始试用本地解决方案。本地方案的成本优势明显：如果你拥有硬件（如Mac Mini或DGX Spark），运行几乎免费。隐私方面，例如处理收据时，我更倾向于使用本地模型，避免将数据发送至OpenAI或Anthropic。考虑到Anthropic曾限制其旗舰模型的性能，专有服务可能日益受限，掌握开放权重替代方案作为备份是明智之举。

使用本地LLM和编码代理的动机包括：固定成本（避免订阅额度超限或API涨价）、可复现性（模型升级可能影响工作流）、离线使用（如无互联网的飞行或写作静修）。

本文将重点介绍如何使用Qwen3.6模型与Qwen-Code框架。Qwen-Code是开源的（类似Codex），且Qwen模型针对该框架进行了优化。根据Nvidia的Polar论文，Qwen3.5-4B在Qwen-Code中表现最佳，最新Qwen3.6预计进一步提升。此外，其他框架如Codex、Claude Code和Cline也支持本地模型，本文也会简要提及。

Qwen3.6 35B-A3B模型大小约22 GB，需要30-40 GB RAM，在M4 Mac Mini和DGX Spark上运行流畅。Cohere的基准测试显示，它在同类尺寸模型中几乎全面领先。该模型采用混合注意力机制，架构与Qwen3-Coder类似。替代方案包括Cohere的North Mini Code，也是同尺寸中的有力竞争者。

本地LLM的部署使用Ollama作为服务引擎，支持macOS、Linux和Windows。对于Mac，推荐使用MLX优化版本（如qwen3.6:35b-mlx），Linux则使用标准版本。安装后可通过命令行或GUI下载模型。

在决定使用本地编码代理前，建议进行速度和性能评估。可使用我提供的脚本ollama_speed_memory_bench.py，测试不同提示长度下的标记生成速度（tokens/sec）和内存占用。例如，在macOS上运行：uv run speed-memory-benchmark/ollama_speed_memory_bench.py --model qwen3.6:35b-mlx。注意，若内存不足30 GB，可选用更小的模型如gemma4:e2b。

无论选择哪种代理框架，本地设置都将为你提供前所未有的控制权、隐私保护和成本效益。开始搭建你的本地编码代理吧！