2025-03-11 17:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

基於距離的數據探索

本文介紹如何利用Qdrant的距離矩陣API進行數據探索，包括降維、聚類和圖表示等方法，幫助發現大規模非結構化數據中的隱藏結構。

來源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在處理大量文檔、圖像或其他非結構化數據時，理解數據的整體結構往往比單獨查看每個數據點更為重要。雖然數字在表格中通過圖表獲得意義，但可視化非結構化數據項之間的距離（相似/不相似）也能揭示隱藏的結構和模式。

Qdrant 1.12版本發佈的新距離矩陣API，使得這一探索過程更加容易。該API能夠高效計算數據點之間的距離矩陣，而距離矩陣的計算通常是聚類或可視化過程中最耗計算量的部分。由於Qdrant已對數據建立索引，距離矩陣的計算成本相對較低。

本文介紹了幾種利用距離矩陣API進行數據探索的方法。首先是降維技術，用於將高維數據轉換為低維表示，同時保持重要數據屬性。文章使用UMAP算法，通過將高維點隨機映射到2D空間，然後調整以匹配原始距離矩陣，從而實現可視化。使用Qdrant計算距離矩陣後，UMAP可以直接使用預計算的距離，跳過計算步驟。示例中使用Midjourney Styles數據集，通過Qdrant的snapshot恢復功能導入數據，並展示瞭如何用Python代碼實現整個流程。

其次是聚類分析，將相似的數據點分組。許多聚類算法（如KMeans）接受預計算的距離矩陣作為輸入，因此可以複用之前計算的矩陣。文章展示瞭如何使用scikit-learn的KMeans算法將數據分為10個簇，並利用UMAP降維後的結果進行可視化。

降維和聚類都需要訓練步驟，且新增數據點需重新計算。圖探索提供了另一種交互式方法，將數據點作為節點，相似度作為邊，通過力導向佈局實時渲染。針對大規模數據集，文章介紹了兩種策略：從單個節點擴展，以及從集合中採樣。Qdrant的圖探索工具支持設置節點鄰居數和採樣大小，並可選擇使用最小/最大生成樹來突出最重要的邊，從而揭示數據聚類和關鍵關係。

總之，向量相似性不僅限於最近鄰查找，更是強大的數據探索工具。Qdrant提供了Web UI中的可視化和圖探索工具，以及距離矩陣API，使用户能夠輕鬆發現數據中的隱藏結構。

此外，Qdrant的距離矩陣API還與其他降維算法兼容，如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE，為數據探索提供了更多選擇。圖探索工具則通過力導向佈局和生成樹算法，使用户能夠交互式地探索數據關係，而無需重新訓練模型。這些工具共同構成了一個強大的數據探索生態系統，適用於從簡單可視化到複雜分析的多種場景。