AI News HubLIVE
站内改写2 分鐘閱讀

Tether 將 TurboQuant 引入其本地 AI 引擎 QVAC SDK

QVAC SDK 0.12.0 引入了 TurboQuant,這是一種 KV 緩存量化算法,可將上下文內存佔用減少約 5 倍,使本地 AI 能在消費級 GPU 上處理 262K 令牌的全長上下文。該算法來自 Google Research 的 ICLR 2026 論文,無需重新訓練模型即可生效。

來源Hacker News AI作者: qvac

如果您曾將長文檔粘貼到本地 AI 應用中,並看到模型在頁面中途因“上下文長度超限”而停止,那麼您已經遇到了多年來限制本地 AI 發展的內存瓶頸。問題不在於模型本身,而在於內存——即鍵值(KV)緩存。

QVAC SDK 0.12.0 改變了這一點。TurboQuant 是一種 KV 緩存量化算法,由 Google Research 在 ICLR 2026 上發表(Zandieh 等人)。它能在保持精度的同時,將 KV 緩存從 16 位壓縮到約 3 位每個值,從而在實際使用中將上下文內存佔用降低多達 5 倍。

什麼是 KV 緩存?它就像 LLM 在對話期間維護的工作記憶——每個提示詞、之前的回覆和附加文檔都以鍵值對的形式存儲在本地設備上。這種緩存使模型能夠維護長上下文的一致性,而無需在每個令牌上從頭開始重新處理所有內容。但代價是:緩存大小隨上下文長度和模型深度線性增長。例如,一個 Qwen3.5-4B 模型在 262K 令牌下,以 16 位精度存儲約 8 GB 的 KV 數據——這比 Q8 權重大小本身還要大兩倍。因此,KV 緩存才是導致 VRAM 超限的真正原因,而非模型權重。

本地 AI 面臨兩道內存牆。第一道是模型權重必須適配設備的有限內存;一旦適配,KV 緩存就成為第二道牆,限制可處理的上下文長度。TurboQuant 專門攻擊這第二道牆。

SDK 0.12.0 為您的應用帶來了什麼變化?根據官方估算,在 RTX 5060(8 GB VRAM)上,不使用 TurboQuant 時可用 KV 預算約為 3.7 GB,支持約 120K 令牌;啓用後,可達到 262K 令牌的完整上下文。RTX 5070(12 GB)從約 250K 提升至完整 262K;RTX 5090(32 GB)和 AMD Ryzen AI Max+ 395(128 GB)本身已支持全上下文,但 TurboQuant 進一步節省了內存空間。注意:這些數據未計入推理時分配的計算緩衝區,因此是近似值。

這種提升的實際意義包括:本地編碼助手可容納完整代碼庫、長文檔分析(法律合同、研究論文、代碼庫)、在單張消費級 GPU 上運行具有 200K+ 上下文的本地 4B+ 模型,以及為 HIPAA/GDPR 工作負載部署本地企業級推理服務器。

如何在您的應用中使用 TurboQuant?只需更新 SDK 至 0.12.0:運行 npm install @qvac/sdk@latest,然後在加載模型時傳入 turboquant 標誌即可。目前該功能僅支持 AMD 和 NVIDIA GPU,對 iOS、Android 和 Apple Silicon 的支持即將推出。

為什麼這很重要?長期以來,上下文上限實際上就是訪問上限。如果您能負擔雲 API,就沒有 KV 緩存問題——服務器農場擁有幾乎無限的內存。而如果您想在自己擁有的設備上運行 AI,並讓數據保留在本地,就會碰到這道牆。TurboQuant 縮小了這種差距。您已有的相同模型文件,在已有設備上獲得了六倍的內存餘量。更多設備能夠運行實際工作負載;更多人能夠直接訪問運行在自己硬件上的智能,而非遠在天邊的數據中心。