2026-06-01 23:14 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Tether 將 TurboQuant 引入其本地 AI 引擎 QVAC SDK

QVAC SDK 0.12.0 引入了 TurboQuant，這是一種 KV 快取量化演算法，可將上下文記憶體佔用減少約 5 倍，使本地 AI 能在消費級 GPU 上處理 262K 令牌的全長上下文。該演算法來自 Google Research 的 ICLR 2026 論文，無需重新訓練模型即可生效。

來源Hacker News AI作者: qvac

如果您曾將長文件貼上到本地 AI 應用中，並看到模型在頁面中途因“上下文長度超限”而停止，那麼您已經遇到了多年來限制本地 AI 發展的記憶體瓶頸。問題不在於模型本身，而在於記憶體——即鍵值（KV）快取。

QVAC SDK 0.12.0 改變了這一點。TurboQuant 是一種 KV 快取量化演算法，由 Google Research 在 ICLR 2026 上發表（Zandieh 等人）。它能在保持精度的同時，將 KV 快取從 16 位壓縮到約 3 位每個值，從而在實際使用中將上下文記憶體佔用降低多達 5 倍。

什麼是 KV 快取？它就像 LLM 在對話期間維護的工作記憶——每個提示詞、之前的回覆和附加文件都以鍵值對的形式儲存在本地裝置上。這種快取使模型能夠維護長上下文的一致性，而無需在每個令牌上從頭開始重新處理所有內容。但代價是：快取大小隨上下文長度和模型深度線性增長。例如，一個 Qwen3.5-4B 模型在 262K 令牌下，以 16 位精度儲存約 8 GB 的 KV 資料——這比 Q8 權重大小本身還要大兩倍。因此，KV 快取才是導致 VRAM 超限的真正原因，而非模型權重。

本地 AI 面臨兩道記憶體牆。第一道是模型權重必須適配裝置的有限記憶體；一旦適配，KV 快取就成為第二道牆，限制可處理的上下文長度。TurboQuant 專門攻擊這第二道牆。

SDK 0.12.0 為您的應用帶來了什麼變化？根據官方估算，在 RTX 5060（8 GB VRAM）上，不使用 TurboQuant 時可用 KV 預算約為 3.7 GB，支援約 120K 令牌；啟用後，可達到 262K 令牌的完整上下文。RTX 5070（12 GB）從約 250K 提升至完整 262K；RTX 5090（32 GB）和 AMD Ryzen AI Max+ 395（128 GB）本身已支援全上下文，但 TurboQuant 進一步節省了記憶體空間。注意：這些資料未計入推理時分配的計算緩衝區，因此是近似值。

這種提升的實際意義包括：本地編碼助手可容納完整程式碼庫、長文件分析（法律合同、研究論文、程式碼庫）、在單張消費級 GPU 上執行具有 200K+ 上下文的本地 4B+ 模型，以及為 HIPAA/GDPR 工作負載部署本地企業級推理伺服器。

如何在您的應用中使用 TurboQuant？只需更新 SDK 至 0.12.0：執行 npm install @qvac/sdk@latest，然後在載入模型時傳入 turboquant 標誌即可。目前該功能僅支援 AMD 和 NVIDIA GPU，對 iOS、Android 和 Apple Silicon 的支援即將推出。

為什麼這很重要？長期以來，上下文上限實際上就是訪問上限。如果您能負擔雲 API，就沒有 KV 快取問題——伺服器農場擁有幾乎無限的記憶體。而如果您想在自己擁有的裝置上執行 AI，並讓資料保留在本地，就會碰到這道牆。TurboQuant 縮小了這種差距。您已有的相同模型檔案，在已有裝置上獲得了六倍的記憶體餘量。更多裝置能夠執行實際工作負載；更多人能夠直接訪問執行在自己硬體上的智慧，而非遠在天邊的資料中心。