將Claude Code與本地模型配對使用
本文介紹瞭如何將Claude Code與本地推理後端(Ollama、LM Studio、llama.cpp)配對,以降低API成本並避免速率限制。詳細說明了環境變數配置、模型選擇建議以及常見問題的解決方法。
引言
代理式編碼會話成本高昂。一次Claude Code會話——讀取檔案、編寫程式碼、執行測試、迭代——消耗的令牌數可能是普通聊天對話的10到50倍。大規模使用時,成本會迅速累積。再加上可能中斷長時間工作流的速率限制,以及對第三方API的依賴(價格變動、政策收緊、服務中斷),本地推理的案例變得直截了當。
2026年的本地模型已經足夠好。對於Claude Code日常處理的程式碼補全、重構、除錯、程式碼庫解釋等任務,精心選擇的量化本地模型可以覆蓋絕大多數實際用例,且零令牌成本、無速率限制。本文將介紹三個推理後端(Ollama、LM Studio和llama.cpp),配置Claude Code連線到每個後端所需的環境變數和配置檔案,一張值得執行的模型推薦表,以及實際會遇到的故障排除方案。
Claude Code如何連線任何本地模型
機制比大多數指南看起來更簡單。Claude Code以Anthropic Messages API格式傳送請求。預設情況下,這些請求傳送到Anthropic的伺服器。設定ANTHROPIC_BASE_URL可以將它們重定向到任何支援相同格式的伺服器,現在Ollama、LM Studio和llama.cpp原生支援該格式。
根據官方Claude Code環境變數文件,與此設定相關的變數包括:
- ANTHROPIC_BASE_URL:將所有API呼叫從Anthropic的伺服器重定向到您設定的URL。
- ANTHROPIC_API_KEY:請求頭中傳送的API金鑰。本地伺服器通常忽略身份驗證,因此通常設定為佔位符字串,如"local"或"ollama"。
- ANTHROPIC_AUTH_TOKEN:替代的身份驗證頭。某些本地伺服器會檢查此欄位而非API金鑰。設定為相同的佔位符。
- ANTHROPIC_DEFAULT_SONNET_MODEL、ANTHROPIC_DEFAULT_HAIKU_MODEL、ANTHROPIC_DEFAULT_OPUS_MODEL:Claude Code根據任務內部請求不同的模型層級。這三個變數將每個層級對映到您本地模型的名稱。沒有它們,Claude Code會向本地伺服器傳送請求(如claude-sonnet-4-20250514),而本地沒有該模型,導致請求被拒絕。
2026年1月,Ollama增加了對Anthropic Messages API的原生支援,這是使此工作流無需翻譯代理即可實用的技術變革。LM Studio在0.4.1版本中增加了原生/v1/messages端點。llama.cpp更早就有直接的Anthropic API支援。現在三者都支援Claude Code的原生協議。
後端1:Ollama
Ollama是正確的起點。它透過簡單的命令列介面處理所有模型管理複雜性:下載權重、量化、GPU和CPU分配以及服務。一個命令安裝,一個命令拉取模型,幾個環境變數配置。安裝後作為後臺服務執行,無需手動啟動伺服器。
前提條件
- macOS、Linux或Windows(推薦WSL2)
- 至少16 GB RAM(推薦32 GB)
- GPU推理需要8+ GB VRAM,或僅CPU但足夠RAM
- Ollama v0.14.0或更高版本(需要Anthropic Messages API支援)
安裝Ollama
# macOS和Linux一鍵安裝
curl -fsSL https://ollama.com/install.sh | sh
# 驗證版本——必須0.14.0+才相容Claude Code
ollama version
# 預期:ollama version is 0.14.x or higher
# Windows:從https://ollama.com下載安裝程式安裝後,Ollama自動在後臺啟動,監聽埠11434。驗證是否執行:
curl http://localhost:11434
# 預期響應:Ollama is running拉取編碼模型
# GLM-4.7-Flash——推薦起點,強大的工具呼叫,128K上下文,適合8 GB VRAM,Apache 2.0許可證
ollama pull glm-4.7-flash:latest
# Qwen3-Coder——強大的程式碼生成和指令遵循,需要20+ GB VRAM
ollama pull qwen3-coder
# Devstral-Small——專為代理編碼工作流設計,社群測試相容Claude Code,24B,需要16+ GB VRAM
ollama pull devstral-small-2:24b
# 驗證模型已下載
ollama list配置Claude Code使用Ollama
選項1:Shell匯出(僅當前終端會話)
# 將Claude Code重定向到本地Ollama伺服器
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
# 啟動Claude Code
claude選項2:~/.claude/settings.json(永久,適用於所有會話)
建立或編輯~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_API_KEY": "ollama",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7-flash:latest",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.7-flash:latest",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7-flash:latest"
}
}選項3:專案目錄中的.env檔案(按專案覆蓋)
# .env在專案根目錄
ANTHROPIC_BASE_URL=http://localhost:11434
ANTHROPIC_API_KEY=ollama
ANTHROPIC_AUTH_TOKEN=ollama
ANTHROPIC_DEFAULT_SONNET_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_HAIKU_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_OPUS_MODEL=qwen3-coder驗證連線:
claude
# 在Claude Code中輸入:> What model are you running?
# 應返回本地模型,且無Anthropic API呼叫
# 使用詳細日誌確認:
claude --verbose
# 查詢指向localhost:11434的請求從頭開始的完整工作序列:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull glm-4.7-flash:latest
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
claude後端2:LM Studio
如果您想要圖形介面來瀏覽和管理模型,而不是完全在終端中操作,那麼LM Studio是正確的選擇。自0.4.1版本起,它包含原生Anthropic相容的/v1/messages端點——正是Claude Code期望的路徑——因此無需翻譯層或代理。
前提條件
- macOS、Windows或Linux
- 推薦GPU至少6 GB VRAM(僅CPU也可以但較慢)
- 從lmstudio.ai下載或使用CLI安裝程式
安裝和配置LM Studio
# 在無GUI的伺服器或VM上——CLI安裝程式
curl -fsSL https://releases.lmstudio.ai/cli/install.sh | bash
# 或從https://lmstudio.ai下載桌面應用GUI設定步驟:
- 開啟LM Studio,搜尋編碼模型(如"qwen coder"或"devstral")。
- 下載模型。LM Studio自動處理量化選擇。
- 轉到"本地伺服器"選項卡(左側邊欄圖示)。
- 設定上下文大小。建議從至少25,000個令牌開始,然後增加以獲得更好結果。
- 單擊"啟動伺服器"。
- 注意埠(預設1234)並精確複製模型名稱。
配置Claude Code
export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_API_KEY="lm-studio"
export ANTHROPIC_AUTH_TOKEN="lm-studio"
export ANTHROPIC_DEFAULT_SONNET_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_OPUS_MODEL="qwen2.5-coder-32b-instruct"或在~/.claude/settings.json中持久化:
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_API_KEY": "lm-studio",
"ANTHROPIC_AUTH_TOKEN": "lm-studio",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen2.5-coder-32b-instruct",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen2.5-coder-32b-instruct",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen2.5-coder-32b-instruct"
}
}執行步驟
- 從GUI啟動LM Studio伺服器(本地伺服器選項卡 > 啟動伺服器)。
- 設定環境變數。
- 啟動Claude Code。
後端3:llama.cpp
當您需要直接控制推理引數(量化型別、KV快取配置、批大小、執行緒數)或在伺服器上執行且需要最低開銷時,llama.cpp是正確的選擇。它原生支援Anthropic Messages API,無需代理或翻譯層。
前提條件
- GGUF格式的模型檔案(從Hugging Face下載,搜尋任何模型的"GGUF"版本)
- 支援CUDA的GPU用於GPU推理,或僅CPU(較慢)
- CMake和C++編譯器用於原始碼構建(在Linux/CUDA上,推薦原始碼)
安裝llama.cpp
# macOS——Homebrew最簡單
brew install llama.cpp
# Linux with CUDA——從原始碼構建以獲得最佳GPU效能
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# 二進位制檔案在./build/bin/
# Linux CPU-only構建
cmake -B build
cmake --build build --config Release
# Windows——預構建二進位制檔案:
# https://github.com/ggml-org/llama.cpp/releases
# 下載匹配硬體的CUDA或CPU變體下載GGUF模型
# 安裝Hugging Face CLI
pip install huggingface-hub
# 下載Q4_K_XL量化的GLM-4.7-Flash(約4.5 GB)
huggingface-cli download THUDM/glm-4-9b-gguf glm-4-9b-Q4_K_XL.gguf --local-dir ./models(後續配置步驟因文章截斷未完整顯示,但核心思想與其他後端類似。)
結論
將Claude Code與本地模型配對使用,可以顯著降低成本並消除對第三方API的依賴。透過本文介紹的三個後端,開發者可以根據自己的硬體和偏好選擇最合適的方案,並透過簡單的環境變數配置實現無縫整合。
*(注:本文基於KDnuggets文章,內容有所刪減和重組。)*