使用本地編碼代理:開源模型與本地工具的實用指南
本文詳細介紹瞭如何搭建一個完全本地的編碼代理環境,使用開源工具和開放權重的大語言模型(如Qwen3.6)替代付費服務(如Claude Code和Codex)。涵蓋了本地模型的優勢、設置步驟、性能評估以及多種代理框架(Qwen-Code、Codex、Claude Code等)的選擇。
許多讀者詢問我關於本地編碼代理的配置和實踐經驗。因此,我決定撰寫這篇教程,介紹如何使用開源工具和開放權重大語言模型(LLM)搭建一個生產級別的本地編碼代理。
本地編碼代理的核心是將LLM作為推理和代碼生成的引擎,而外圍的“編碼代理框架”則提供操作環境,使LLM能夠在本地項目中進行有意義的編碼工作。與GPT in Codex或Claude Code等專有服務相比,本地設置具有透明、可審查、免費(僅需硬件和電力成本)等優勢,並且完全由你掌控,可根據需求隨意修改框架。此外,它充滿樂趣!
儘管我目前日常仍主要使用Codex和Claude Code(以跟上不斷更新的工具和功能),但我已開始試用本地解決方案。本地方案的成本優勢明顯:如果你擁有硬件(如Mac Mini或DGX Spark),運行幾乎免費。隱私方面,例如處理收據時,我更傾向於使用本地模型,避免將數據發送至OpenAI或Anthropic。考慮到Anthropic曾限制其旗艦模型的性能,專有服務可能日益受限,掌握開放權重替代方案作為備份是明智之舉。
使用本地LLM和編碼代理的動機包括:固定成本(避免訂閲額度超限或API漲價)、可復現性(模型升級可能影響工作流)、離線使用(如無互聯網的飛行或寫作靜修)。
本文將重點介紹如何使用Qwen3.6模型與Qwen-Code框架。Qwen-Code是開源的(類似Codex),且Qwen模型針對該框架進行了優化。根據Nvidia的Polar論文,Qwen3.5-4B在Qwen-Code中表現最佳,最新Qwen3.6預計進一步提升。此外,其他框架如Codex、Claude Code和Cline也支持本地模型,本文也會簡要提及。
Qwen3.6 35B-A3B模型大小約22 GB,需要30-40 GB RAM,在M4 Mac Mini和DGX Spark上運行流暢。Cohere的基準測試顯示,它在同類尺寸模型中幾乎全面領先。該模型採用混合注意力機制,架構與Qwen3-Coder類似。替代方案包括Cohere的North Mini Code,也是同尺寸中的有力競爭者。
本地LLM的部署使用Ollama作為服務引擎,支持macOS、Linux和Windows。對於Mac,推薦使用MLX優化版本(如qwen3.6:35b-mlx),Linux則使用標準版本。安裝後可通過命令行或GUI下載模型。
在決定使用本地編碼代理前,建議進行速度和性能評估。可使用我提供的腳本ollama_speed_memory_bench.py,測試不同提示長度下的標記生成速度(tokens/sec)和內存佔用。例如,在macOS上運行:uv run speed-memory-benchmark/ollama_speed_memory_bench.py --model qwen3.6:35b-mlx。注意,若內存不足30 GB,可選用更小的模型如gemma4:e2b。
無論選擇哪種代理框架,本地設置都將為你提供前所未有的控制權、隱私保護和成本效益。開始搭建你的本地編碼代理吧!