AI News HubLIVE
站内改写2 分で読了

Tether、ローカルAIエンジンQVAC SDKにTurboQuantを導入

QVAC SDK 0.12.0 は、KVキャッシュ量子化アルゴリズムTurboQuantを導入し、コンテキストメモリ消費を最大5倍削減、コンシューマーGPU上で262Kトークンの完全コンテキストを実現します。モデルの再トレーニングは不要で、Google ResearchのICLR 2026論文に基づいています。

ソースHacker News AI著者: qvac

もしあなたが長いドキュメントをローカルAIアプリに貼り付け、モデルが途中で「コンテキスト制限超過」と表示して停止した経験があるなら、それは長年ローカルAIを制限してきたメモリの壁にぶつかったということです。問題はモデルそのものではなく、メモリ、すなわちキー・バリュー(KV)キャッシュにありました。

QVAC SDK 0.12.0 がそれを変えます。TurboQuantは、Google ResearchがICLR 2026で発表した(Zandieh et al.)KVキャッシュ量子化アルゴリズムです。精度を維持しながらKVキャッシュを16ビットから各値約3ビットに圧縮し、実用的なコンテキストメモリ使用量を最大5倍削減します。

KVキャッシュとは何か?それはLLMが会話中に保持する作業記憶のようなもので、プロンプトの各トークン、以前のアシスタント応答、添付ドキュメントすべてがデバイス上でキー・バリューペアとして保存されます。これにより、モデルは各トークンですべてを再処理することなく、長いコンテキストにわたって一貫性を維持できます。しかし、トレードオフとしてキャッシュサイズはコンテキスト長とモデル深度に比例して増加します。例えば、Qwen3.5-4Bを262Kトークンで実行する場合、16ビット精度で約8GBのKVデータが保存され、これはQ8重みサイズの2倍に相当します。つまり、モデル重みではなくKVキャッシュがVRAMを圧迫するのです。

ローカルAIには二つのメモリの壁があります。第一に、モデル重みがデバイスに収まる必要があります。大きすぎると実行すらできません。それが収まったとしても、KVキャッシュが第二の壁となり、処理可能なコンテキスト量を制限します。TurboQuantはこの第二の壁に挑みます。

SDK 0.12.0 でアプリにどのような変化があるか?公式推定によると、RTX 5060(8GB VRAM)では、TurboQuantなしで利用可能なKVバジェットが約3.7GB、対応コンテキスト約120Kトークンだったのが、有効にすると262Kトークンの完全コンテキストが可能になります。RTX 5070(12GB)は約250Kから完全な262Kに向上。RTX 5090(32GB)やAMD Ryzen AI Max+ 395(128GB)は元々フルコンテキスト対応ですが、TurboQuantによりメモリをさらに節約できます。注意:これらの数値は推論時に割り当てられる計算バッファを考慮していないため、概算値です。

実際の活用例としては、ローカルコーディングアシスタントによる全コードベースのコンテキスト保持、長文書分析(法的契約書、研究論文、コードベース)、単一のコンシューマーGPU上での200K+コンテキストを持つローカル4B+モデルの実行、HIPAA/GDPR対応のオンプレミスエンタープライズ推論サーバーなどが挙げられます。

アプリでTurboQuantを使用するには、SDKを0.12.0に更新し(npm install @qvac/sdk@latest)、モデル読み込み時にturboquantフラグを渡すだけです。現在はAMDおよびNVIDIA GPUのみ対応しており、iOS、Android、Apple Silicon向けのサポートは今後実装予定です。

なぜこれが重要か?コンテキストの上限は事実上、アクセスの上限でした。クラウドAPIを利用できるならKVキャッシュの問題はなく、サーバーファームは事実上無制限のメモリを持ちます。長いコンテキストは購入する機能でした。しかし、自分のデバイスでAIを実行し、データをローカルに保持したい場合、壁にぶつかります。TurboQuantはその差を縮めます。すでに持っているモデルファイルが、同じデバイス上で6倍のメモリ余裕を得られます。より多くのデバイスが実用的なワークロードを実行できるようになり、多くの人々がデータセンターではなく自分自身のハードウェア上で動作するインテリジェンスに直接アクセスできるようになります。