2026-06-12站内改写4 分鐘閱讀更新: 2026-06-12

將Claude Code與本地模型配對使用

本文介紹瞭如何將Claude Code與本地推理後端（Ollama、LM Studio、llama.cpp）配對，以降低API成本並避免速率限制。詳細說明了環境變數配置、模型選擇建議以及常見問題的解決方法。

來源KDnuggets作者: Shittu Olumide

引言

代理式編碼會話成本高昂。一次Claude Code會話——讀取檔案、編寫程式碼、執行測試、迭代——消耗的令牌數可能是普通聊天對話的10到50倍。大規模使用時，成本會迅速累積。再加上可能中斷長時間工作流的速率限制，以及對第三方API的依賴（價格變動、政策收緊、服務中斷），本地推理的案例變得直截了當。

2026年的本地模型已經足夠好。對於Claude Code日常處理的程式碼補全、重構、除錯、程式碼庫解釋等任務，精心選擇的量化本地模型可以覆蓋絕大多數實際用例，且零令牌成本、無速率限制。本文將介紹三個推理後端（Ollama、LM Studio和llama.cpp），配置Claude Code連線到每個後端所需的環境變數和配置檔案，一張值得執行的模型推薦表，以及實際會遇到的故障排除方案。

Claude Code如何連線任何本地模型

機制比大多數指南看起來更簡單。Claude Code以Anthropic Messages API格式傳送請求。預設情況下，這些請求傳送到Anthropic的伺服器。設定ANTHROPIC_BASE_URL可以將它們重定向到任何支援相同格式的伺服器，現在Ollama、LM Studio和llama.cpp原生支援該格式。

根據官方Claude Code環境變數文件，與此設定相關的變數包括：

ANTHROPIC_BASE_URL：將所有API呼叫從Anthropic的伺服器重定向到您設定的URL。
ANTHROPIC_API_KEY：請求頭中傳送的API金鑰。本地伺服器通常忽略身份驗證，因此通常設定為佔位符字串，如"local"或"ollama"。
ANTHROPIC_AUTH_TOKEN：替代的身份驗證頭。某些本地伺服器會檢查此欄位而非API金鑰。設定為相同的佔位符。
ANTHROPIC_DEFAULT_SONNET_MODEL、ANTHROPIC_DEFAULT_HAIKU_MODEL、ANTHROPIC_DEFAULT_OPUS_MODEL：Claude Code根據任務內部請求不同的模型層級。這三個變數將每個層級對映到您本地模型的名稱。沒有它們，Claude Code會向本地伺服器傳送請求（如claude-sonnet-4-20250514），而本地沒有該模型，導致請求被拒絕。

2026年1月，Ollama增加了對Anthropic Messages API的原生支援，這是使此工作流無需翻譯代理即可實用的技術變革。LM Studio在0.4.1版本中增加了原生/v1/messages端點。llama.cpp更早就有直接的Anthropic API支援。現在三者都支援Claude Code的原生協議。

後端1：Ollama

Ollama是正確的起點。它透過簡單的命令列介面處理所有模型管理複雜性：下載權重、量化、GPU和CPU分配以及服務。一個命令安裝，一個命令拉取模型，幾個環境變數配置。安裝後作為後臺服務執行，無需手動啟動伺服器。

前提條件

macOS、Linux或Windows（推薦WSL2）
至少16 GB RAM（推薦32 GB）
GPU推理需要8+ GB VRAM，或僅CPU但足夠RAM
Ollama v0.14.0或更高版本（需要Anthropic Messages API支援）

安裝Ollama

# macOS和Linux一鍵安裝
curl -fsSL https://ollama.com/install.sh | sh

# 驗證版本——必須0.14.0+才相容Claude Code
ollama version
# 預期：ollama version is 0.14.x or higher

# Windows：從https://ollama.com下載安裝程式

安裝後，Ollama自動在後臺啟動，監聽埠11434。驗證是否執行：

curl http://localhost:11434
# 預期響應：Ollama is running

拉取編碼模型

# GLM-4.7-Flash——推薦起點，強大的工具呼叫，128K上下文，適合8 GB VRAM，Apache 2.0許可證
ollama pull glm-4.7-flash:latest

# Qwen3-Coder——強大的程式碼生成和指令遵循，需要20+ GB VRAM
ollama pull qwen3-coder

# Devstral-Small——專為代理編碼工作流設計，社群測試相容Claude Code，24B，需要16+ GB VRAM
ollama pull devstral-small-2:24b

# 驗證模型已下載
ollama list

配置Claude Code使用Ollama

選項1：Shell匯出（僅當前終端會話）

# 將Claude Code重定向到本地Ollama伺服器
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"

# 啟動Claude Code
claude

選項2：~/.claude/settings.json（永久，適用於所有會話）

建立或編輯~/.claude/settings.json：

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:11434",
    "ANTHROPIC_API_KEY": "ollama",
    "ANTHROPIC_AUTH_TOKEN": "ollama",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7-flash:latest"
  }
}

選項3：專案目錄中的.env檔案（按專案覆蓋）

# .env在專案根目錄
ANTHROPIC_BASE_URL=http://localhost:11434
ANTHROPIC_API_KEY=ollama
ANTHROPIC_AUTH_TOKEN=ollama
ANTHROPIC_DEFAULT_SONNET_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_HAIKU_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_OPUS_MODEL=qwen3-coder

驗證連線：

claude
# 在Claude Code中輸入：> What model are you running?
# 應返回本地模型，且無Anthropic API呼叫

# 使用詳細日誌確認：
claude --verbose
# 查詢指向localhost:11434的請求

從頭開始的完整工作序列：

curl -fsSL https://ollama.com/install.sh | sh
ollama pull glm-4.7-flash:latest
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
claude

後端2：LM Studio

如果您想要圖形介面來瀏覽和管理模型，而不是完全在終端中操作，那麼LM Studio是正確的選擇。自0.4.1版本起，它包含原生Anthropic相容的/v1/messages端點——正是Claude Code期望的路徑——因此無需翻譯層或代理。

前提條件

macOS、Windows或Linux
推薦GPU至少6 GB VRAM（僅CPU也可以但較慢）
從lmstudio.ai下載或使用CLI安裝程式

安裝和配置LM Studio

# 在無GUI的伺服器或VM上——CLI安裝程式
curl -fsSL https://releases.lmstudio.ai/cli/install.sh | bash

# 或從https://lmstudio.ai下載桌面應用

GUI設定步驟：

開啟LM Studio，搜尋編碼模型（如"qwen coder"或"devstral"）。
下載模型。LM Studio自動處理量化選擇。
轉到"本地伺服器"選項卡（左側邊欄圖示）。
設定上下文大小。建議從至少25,000個令牌開始，然後增加以獲得更好結果。
單擊"啟動伺服器"。
注意埠（預設1234）並精確複製模型名稱。

配置Claude Code

export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_API_KEY="lm-studio"
export ANTHROPIC_AUTH_TOKEN="lm-studio"
export ANTHROPIC_DEFAULT_SONNET_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_OPUS_MODEL="qwen2.5-coder-32b-instruct"

或在~/.claude/settings.json中持久化：

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:1234",
    "ANTHROPIC_API_KEY": "lm-studio",
    "ANTHROPIC_AUTH_TOKEN": "lm-studio",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen2.5-coder-32b-instruct",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen2.5-coder-32b-instruct",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen2.5-coder-32b-instruct"
  }
}

執行步驟

從GUI啟動LM Studio伺服器（本地伺服器選項卡 > 啟動伺服器）。
設定環境變數。
啟動Claude Code。

後端3：llama.cpp

當您需要直接控制推理引數（量化型別、KV快取配置、批大小、執行緒數）或在伺服器上執行且需要最低開銷時，llama.cpp是正確的選擇。它原生支援Anthropic Messages API，無需代理或翻譯層。

前提條件

GGUF格式的模型檔案（從Hugging Face下載，搜尋任何模型的"GGUF"版本）
支援CUDA的GPU用於GPU推理，或僅CPU（較慢）
CMake和C++編譯器用於原始碼構建（在Linux/CUDA上，推薦原始碼）

安裝llama.cpp

# macOS——Homebrew最簡單
brew install llama.cpp

# Linux with CUDA——從原始碼構建以獲得最佳GPU效能
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# 二進位制檔案在./build/bin/

# Linux CPU-only構建
cmake -B build
cmake --build build --config Release

# Windows——預構建二進位制檔案：
# https://github.com/ggml-org/llama.cpp/releases
# 下載匹配硬體的CUDA或CPU變體

下載GGUF模型

# 安裝Hugging Face CLI
pip install huggingface-hub

# 下載Q4_K_XL量化的GLM-4.7-Flash（約4.5 GB）
huggingface-cli download THUDM/glm-4-9b-gguf glm-4-9b-Q4_K_XL.gguf --local-dir ./models

（後續配置步驟因文章截斷未完整顯示，但核心思想與其他後端類似。）

結論

將Claude Code與本地模型配對使用，可以顯著降低成本並消除對第三方API的依賴。透過本文介紹的三個後端，開發者可以根據自己的硬體和偏好選擇最合適的方案，並透過簡單的環境變數配置實現無縫整合。

*（注：本文基於KDnuggets文章，內容有所刪減和重組。）*