2025-03-11 17:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

基於距離的資料探索

本文介紹如何利用Qdrant的距離矩陣API進行資料探索，包括降維、聚類和圖表示等方法，幫助發現大規模非結構化資料中的隱藏結構。

來源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在處理大量文件、影像或其他非結構化資料時，理解資料的整體結構往往比單獨檢視每個資料點更為重要。雖然數字在表格中透過圖表獲得意義，但視覺化非結構化資料項之間的距離（相似/不相似）也能揭示隱藏的結構和模式。

Qdrant 1.12版本釋出的新距離矩陣API，使得這一探索過程更加容易。該API能夠高效計算資料點之間的距離矩陣，而距離矩陣的計算通常是聚類或視覺化過程中最耗計算量的部分。由於Qdrant已對資料建立索引，距離矩陣的計算成本相對較低。

本文介紹了幾種利用距離矩陣API進行資料探索的方法。首先是降維技術，用於將高維資料轉換為低維表示，同時保持重要資料屬性。文章使用UMAP演算法，透過將高維點隨機對映到2D空間，然後調整以匹配原始距離矩陣，從而實現視覺化。使用Qdrant計算距離矩陣後，UMAP可以直接使用預計算的距離，跳過計算步驟。示例中使用Midjourney Styles資料集，透過Qdrant的snapshot恢復功能匯入資料，並展示瞭如何用Python程式碼實現整個流程。

其次是聚類分析，將相似的資料點分組。許多聚類演算法（如KMeans）接受預計算的距離矩陣作為輸入，因此可以複用之前計算的矩陣。文章展示瞭如何使用scikit-learn的KMeans演算法將資料分為10個簇，並利用UMAP降維後的結果進行視覺化。

降維和聚類都需要訓練步驟，且新增資料點需重新計算。圖探索提供了另一種互動式方法，將資料點作為節點，相似度作為邊，透過力導向佈局即時渲染。針對大規模資料集，文章介紹了兩種策略：從單個節點擴充套件，以及從集合中取樣。Qdrant的圖探索工具支援設定節點鄰居數和取樣大小，並可選擇使用最小/最大生成樹來突出最重要的邊，從而揭示資料聚類和關鍵關係。

總之，向量相似性不僅限於最近鄰查詢，更是強大的資料探索工具。Qdrant提供了Web UI中的視覺化和圖探索工具，以及距離矩陣API，使使用者能夠輕鬆發現資料中的隱藏結構。

此外，Qdrant的距離矩陣API還與其他降維演算法相容，如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE，為資料探索提供了更多選擇。圖探索工具則透過力導向佈局和生成樹演算法，使使用者能夠互動式地探索資料關係，而無需重新訓練模型。這些工具共同構成了一個強大的資料探索生態系統，適用於從簡單視覺化到複雜分析的多種場景。