2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 16:04 UTC+8

高維網格近似最近鄰搜尋的縮放定律

本研究系統刻畫了多探針網格演算法在高維空間中的效能，發現其在GloVe嵌入上表現出獨特的維度縮放交叉現象，與其他方法相比具有恆定維度指數、近線性查詢縮放和更低索引成本的優勢，對高效Transformer架構設計具有指導意義。

來源arXiv Machine Learning作者: Matthew J Liu, Wei Hang Zheng, Vidhan Purohit, Siqi Xie, Chieh-En Li, Jerry Li, Noah Flynn

近年來，近似最近鄰（ANN）搜尋在機器學習和人工智慧領域佔據了核心地位，尤其是隨著高效Transformer架構的發展，自注意力機制已被形式化為ANN操作。然而，基於網格的方法在現代縮放分析中卻長期被忽視。一項來自Matthew J. Liu等七位研究者、於2026年7月1日提交至arXiv的新研究填補了這一空白，系統性地分析了多探針網格演算法相對資料集規模N和維度d的縮放行為。

研究團隊在GloVe嵌入家族上進行了廣泛的實驗，揭示出一個此前未被報道的維度縮放交叉現象：多探針網格搜尋能夠維持一個大致恆定的維度縮放指數，而基於圖（如HNSW）、樹（如KD-tree）和劃分（如IVF）的方法在高維情況下吞吐量顯著下降。這一優勢不僅體現在查詢延遲上，網格方法還實現了近乎線性的查詢縮放（相對於N），並且其索引構建成本顯著低於競爭方法。例如，在需要頻繁重建索引或維度極高的場景中，索引成本和維度魯棒性成為效能瓶頸，而網格方法恰好在這兩方面表現出色。

更廣泛地，由於自注意力已被建模為ANN操作，ANN演算法的N和d縮放性質可以為高效Transformer架構的成本分析提供理論指導。該研究的程式碼已在GitHub上公開（https://github.com/weiz345/MultiProbeANN），便於社群驗證和擴充套件。這項發現不僅復興了網格方法在ANN領域的地位，也提示研究者重新審視那些因高維詛咒而被放棄的簡單方法。未來，網格方法或將成為構建大規模、高維機器學習系統的重要工具。