AI News HubLIVE
站內改寫2 分鐘閱讀

基於距離的資料探索

本文介紹如何利用Qdrant的距離矩陣API進行資料探索,包括降維、聚類和圖表示等方法,幫助發現大規模非結構化資料中的隱藏結構。

來源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在處理大量文件、影像或其他非結構化資料時,理解資料的整體結構往往比單獨檢視每個資料點更為重要。雖然數字在表格中透過圖表獲得意義,但視覺化非結構化資料項之間的距離(相似/不相似)也能揭示隱藏的結構和模式。

Qdrant 1.12版本釋出的新距離矩陣API,使得這一探索過程更加容易。該API能夠高效計算資料點之間的距離矩陣,而距離矩陣的計算通常是聚類或視覺化過程中最耗計算量的部分。由於Qdrant已對資料建立索引,距離矩陣的計算成本相對較低。

本文介紹了幾種利用距離矩陣API進行資料探索的方法。首先是降維技術,用於將高維資料轉換為低維表示,同時保持重要資料屬性。文章使用UMAP演算法,透過將高維點隨機對映到2D空間,然後調整以匹配原始距離矩陣,從而實現視覺化。使用Qdrant計算距離矩陣後,UMAP可以直接使用預計算的距離,跳過計算步驟。示例中使用Midjourney Styles資料集,透過Qdrant的snapshot恢復功能匯入資料,並展示瞭如何用Python程式碼實現整個流程。

其次是聚類分析,將相似的資料點分組。許多聚類演算法(如KMeans)接受預計算的距離矩陣作為輸入,因此可以複用之前計算的矩陣。文章展示瞭如何使用scikit-learn的KMeans演算法將資料分為10個簇,並利用UMAP降維後的結果進行視覺化。

降維和聚類都需要訓練步驟,且新增資料點需重新計算。圖探索提供了另一種互動式方法,將資料點作為節點,相似度作為邊,透過力導向佈局即時渲染。針對大規模資料集,文章介紹了兩種策略:從單個節點擴充套件,以及從集合中取樣。Qdrant的圖探索工具支援設定節點鄰居數和取樣大小,並可選擇使用最小/最大生成樹來突出最重要的邊,從而揭示資料聚類和關鍵關係。

總之,向量相似性不僅限於最近鄰查詢,更是強大的資料探索工具。Qdrant提供了Web UI中的視覺化和圖探索工具,以及距離矩陣API,使使用者能夠輕鬆發現資料中的隱藏結構。

此外,Qdrant的距離矩陣API還與其他降維演算法相容,如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE,為資料探索提供了更多選擇。圖探索工具則透過力導向佈局和生成樹演算法,使使用者能夠互動式地探索資料關係,而無需重新訓練模型。這些工具共同構成了一個強大的資料探索生態系統,適用於從簡單視覺化到複雜分析的多種場景。