AI News HubLIVE
站内改写2 分钟阅读

使用本地编码代理:开源模型与本地工具的实用指南

本文详细介绍了如何搭建一个完全本地的编码代理环境,使用开源工具和开放权重的大语言模型(如Qwen3.6)替代付费服务(如Claude Code和Codex)。涵盖了本地模型的优势、设置步骤、性能评估以及多种代理框架(Qwen-Code、Codex、Claude Code等)的选择。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

许多读者询问我关于本地编码代理的配置和实践经验。因此,我决定撰写这篇教程,介绍如何使用开源工具和开放权重大语言模型(LLM)搭建一个生产级别的本地编码代理。

本地编码代理的核心是将LLM作为推理和代码生成的引擎,而外围的“编码代理框架”则提供操作环境,使LLM能够在本地项目中进行有意义的编码工作。与GPT in Codex或Claude Code等专有服务相比,本地设置具有透明、可审查、免费(仅需硬件和电力成本)等优势,并且完全由你掌控,可根据需求随意修改框架。此外,它充满乐趣!

尽管我目前日常仍主要使用Codex和Claude Code(以跟上不断更新的工具和功能),但我已开始试用本地解决方案。本地方案的成本优势明显:如果你拥有硬件(如Mac Mini或DGX Spark),运行几乎免费。隐私方面,例如处理收据时,我更倾向于使用本地模型,避免将数据发送至OpenAI或Anthropic。考虑到Anthropic曾限制其旗舰模型的性能,专有服务可能日益受限,掌握开放权重替代方案作为备份是明智之举。

使用本地LLM和编码代理的动机包括:固定成本(避免订阅额度超限或API涨价)、可复现性(模型升级可能影响工作流)、离线使用(如无互联网的飞行或写作静修)。

本文将重点介绍如何使用Qwen3.6模型与Qwen-Code框架。Qwen-Code是开源的(类似Codex),且Qwen模型针对该框架进行了优化。根据Nvidia的Polar论文,Qwen3.5-4B在Qwen-Code中表现最佳,最新Qwen3.6预计进一步提升。此外,其他框架如Codex、Claude Code和Cline也支持本地模型,本文也会简要提及。

Qwen3.6 35B-A3B模型大小约22 GB,需要30-40 GB RAM,在M4 Mac Mini和DGX Spark上运行流畅。Cohere的基准测试显示,它在同类尺寸模型中几乎全面领先。该模型采用混合注意力机制,架构与Qwen3-Coder类似。替代方案包括Cohere的North Mini Code,也是同尺寸中的有力竞争者。

本地LLM的部署使用Ollama作为服务引擎,支持macOS、Linux和Windows。对于Mac,推荐使用MLX优化版本(如qwen3.6:35b-mlx),Linux则使用标准版本。安装后可通过命令行或GUI下载模型。

在决定使用本地编码代理前,建议进行速度和性能评估。可使用我提供的脚本ollama_speed_memory_bench.py,测试不同提示长度下的标记生成速度(tokens/sec)和内存占用。例如,在macOS上运行:uv run speed-memory-benchmark/ollama_speed_memory_bench.py --model qwen3.6:35b-mlx。注意,若内存不足30 GB,可选用更小的模型如gemma4:e2b。

无论选择哪种代理框架,本地设置都将为你提供前所未有的控制权、隐私保护和成本效益。开始搭建你的本地编码代理吧!