Tether 將 TurboQuant 引入其本地 AI 引擎 QVAC SDK
QVAC SDK 0.12.0 引入了 TurboQuant,這是一種 KV 快取量化演算法,可將上下文記憶體佔用減少約 5 倍,使本地 AI 能在消費級 GPU 上處理 262K 令牌的全長上下文。該演算法來自 Google Research 的 ICLR 2026 論文,無需重新訓練模型即可生效。
如果您曾將長文件貼上到本地 AI 應用中,並看到模型在頁面中途因“上下文長度超限”而停止,那麼您已經遇到了多年來限制本地 AI 發展的記憶體瓶頸。問題不在於模型本身,而在於記憶體——即鍵值(KV)快取。
QVAC SDK 0.12.0 改變了這一點。TurboQuant 是一種 KV 快取量化演算法,由 Google Research 在 ICLR 2026 上發表(Zandieh 等人)。它能在保持精度的同時,將 KV 快取從 16 位壓縮到約 3 位每個值,從而在實際使用中將上下文記憶體佔用降低多達 5 倍。
什麼是 KV 快取?它就像 LLM 在對話期間維護的工作記憶——每個提示詞、之前的回覆和附加文件都以鍵值對的形式儲存在本地裝置上。這種快取使模型能夠維護長上下文的一致性,而無需在每個令牌上從頭開始重新處理所有內容。但代價是:快取大小隨上下文長度和模型深度線性增長。例如,一個 Qwen3.5-4B 模型在 262K 令牌下,以 16 位精度儲存約 8 GB 的 KV 資料——這比 Q8 權重大小本身還要大兩倍。因此,KV 快取才是導致 VRAM 超限的真正原因,而非模型權重。
本地 AI 面臨兩道記憶體牆。第一道是模型權重必須適配裝置的有限記憶體;一旦適配,KV 快取就成為第二道牆,限制可處理的上下文長度。TurboQuant 專門攻擊這第二道牆。
SDK 0.12.0 為您的應用帶來了什麼變化?根據官方估算,在 RTX 5060(8 GB VRAM)上,不使用 TurboQuant 時可用 KV 預算約為 3.7 GB,支援約 120K 令牌;啟用後,可達到 262K 令牌的完整上下文。RTX 5070(12 GB)從約 250K 提升至完整 262K;RTX 5090(32 GB)和 AMD Ryzen AI Max+ 395(128 GB)本身已支援全上下文,但 TurboQuant 進一步節省了記憶體空間。注意:這些資料未計入推理時分配的計算緩衝區,因此是近似值。
這種提升的實際意義包括:本地編碼助手可容納完整程式碼庫、長文件分析(法律合同、研究論文、程式碼庫)、在單張消費級 GPU 上執行具有 200K+ 上下文的本地 4B+ 模型,以及為 HIPAA/GDPR 工作負載部署本地企業級推理伺服器。
如何在您的應用中使用 TurboQuant?只需更新 SDK 至 0.12.0:執行 npm install @qvac/sdk@latest,然後在載入模型時傳入 turboquant 標誌即可。目前該功能僅支援 AMD 和 NVIDIA GPU,對 iOS、Android 和 Apple Silicon 的支援即將推出。
為什麼這很重要?長期以來,上下文上限實際上就是訪問上限。如果您能負擔雲 API,就沒有 KV 快取問題——伺服器農場擁有幾乎無限的記憶體。而如果您想在自己擁有的裝置上執行 AI,並讓資料保留在本地,就會碰到這道牆。TurboQuant 縮小了這種差距。您已有的相同模型檔案,在已有裝置上獲得了六倍的記憶體餘量。更多裝置能夠執行實際工作負載;更多人能夠直接訪問執行在自己硬體上的智慧,而非遠在天邊的資料中心。