2026-06-01 23:14 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Tether 將 TurboQuant 引入其本地 AI 引擎 QVAC SDK

QVAC SDK 0.12.0 引入了 TurboQuant，這是一種 KV 緩存量化算法，可將上下文內存佔用減少約 5 倍，使本地 AI 能在消費級 GPU 上處理 262K 令牌的全長上下文。該算法來自 Google Research 的 ICLR 2026 論文，無需重新訓練模型即可生效。

來源Hacker News AI作者: qvac

如果您曾將長文檔粘貼到本地 AI 應用中，並看到模型在頁面中途因“上下文長度超限”而停止，那麼您已經遇到了多年來限制本地 AI 發展的內存瓶頸。問題不在於模型本身，而在於內存——即鍵值（KV）緩存。

QVAC SDK 0.12.0 改變了這一點。TurboQuant 是一種 KV 緩存量化算法，由 Google Research 在 ICLR 2026 上發表（Zandieh 等人）。它能在保持精度的同時，將 KV 緩存從 16 位壓縮到約 3 位每個值，從而在實際使用中將上下文內存佔用降低多達 5 倍。

什麼是 KV 緩存？它就像 LLM 在對話期間維護的工作記憶——每個提示詞、之前的回覆和附加文檔都以鍵值對的形式存儲在本地設備上。這種緩存使模型能夠維護長上下文的一致性，而無需在每個令牌上從頭開始重新處理所有內容。但代價是：緩存大小隨上下文長度和模型深度線性增長。例如，一個 Qwen3.5-4B 模型在 262K 令牌下，以 16 位精度存儲約 8 GB 的 KV 數據——這比 Q8 權重大小本身還要大兩倍。因此，KV 緩存才是導致 VRAM 超限的真正原因，而非模型權重。

本地 AI 面臨兩道內存牆。第一道是模型權重必須適配設備的有限內存；一旦適配，KV 緩存就成為第二道牆，限制可處理的上下文長度。TurboQuant 專門攻擊這第二道牆。

SDK 0.12.0 為您的應用帶來了什麼變化？根據官方估算，在 RTX 5060（8 GB VRAM）上，不使用 TurboQuant 時可用 KV 預算約為 3.7 GB，支持約 120K 令牌；啓用後，可達到 262K 令牌的完整上下文。RTX 5070（12 GB）從約 250K 提升至完整 262K；RTX 5090（32 GB）和 AMD Ryzen AI Max+ 395（128 GB）本身已支持全上下文，但 TurboQuant 進一步節省了內存空間。注意：這些數據未計入推理時分配的計算緩衝區，因此是近似值。

這種提升的實際意義包括：本地編碼助手可容納完整代碼庫、長文檔分析（法律合同、研究論文、代碼庫）、在單張消費級 GPU 上運行具有 200K+ 上下文的本地 4B+ 模型，以及為 HIPAA/GDPR 工作負載部署本地企業級推理服務器。

如何在您的應用中使用 TurboQuant？只需更新 SDK 至 0.12.0：運行 npm install @qvac/sdk@latest，然後在加載模型時傳入 turboquant 標誌即可。目前該功能僅支持 AMD 和 NVIDIA GPU，對 iOS、Android 和 Apple Silicon 的支持即將推出。

為什麼這很重要？長期以來，上下文上限實際上就是訪問上限。如果您能負擔雲 API，就沒有 KV 緩存問題——服務器農場擁有幾乎無限的內存。而如果您想在自己擁有的設備上運行 AI，並讓數據保留在本地，就會碰到這道牆。TurboQuant 縮小了這種差距。您已有的相同模型文件，在已有設備上獲得了六倍的內存餘量。更多設備能夠運行實際工作負載；更多人能夠直接訪問運行在自己硬件上的智能，而非遠在天邊的數據中心。