AI News HubLIVE
站內改寫2 分鐘閱讀

基於距離的數據探索

本文介紹如何利用Qdrant的距離矩陣API進行數據探索,包括降維、聚類和圖表示等方法,幫助發現大規模非結構化數據中的隱藏結構。

來源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在處理大量文檔、圖像或其他非結構化數據時,理解數據的整體結構往往比單獨查看每個數據點更為重要。雖然數字在表格中通過圖表獲得意義,但可視化非結構化數據項之間的距離(相似/不相似)也能揭示隱藏的結構和模式。

Qdrant 1.12版本發佈的新距離矩陣API,使得這一探索過程更加容易。該API能夠高效計算數據點之間的距離矩陣,而距離矩陣的計算通常是聚類或可視化過程中最耗計算量的部分。由於Qdrant已對數據建立索引,距離矩陣的計算成本相對較低。

本文介紹了幾種利用距離矩陣API進行數據探索的方法。首先是降維技術,用於將高維數據轉換為低維表示,同時保持重要數據屬性。文章使用UMAP算法,通過將高維點隨機映射到2D空間,然後調整以匹配原始距離矩陣,從而實現可視化。使用Qdrant計算距離矩陣後,UMAP可以直接使用預計算的距離,跳過計算步驟。示例中使用Midjourney Styles數據集,通過Qdrant的snapshot恢復功能導入數據,並展示瞭如何用Python代碼實現整個流程。

其次是聚類分析,將相似的數據點分組。許多聚類算法(如KMeans)接受預計算的距離矩陣作為輸入,因此可以複用之前計算的矩陣。文章展示瞭如何使用scikit-learn的KMeans算法將數據分為10個簇,並利用UMAP降維後的結果進行可視化。

降維和聚類都需要訓練步驟,且新增數據點需重新計算。圖探索提供了另一種交互式方法,將數據點作為節點,相似度作為邊,通過力導向佈局實時渲染。針對大規模數據集,文章介紹了兩種策略:從單個節點擴展,以及從集合中採樣。Qdrant的圖探索工具支持設置節點鄰居數和採樣大小,並可選擇使用最小/最大生成樹來突出最重要的邊,從而揭示數據聚類和關鍵關係。

總之,向量相似性不僅限於最近鄰查找,更是強大的數據探索工具。Qdrant提供了Web UI中的可視化和圖探索工具,以及距離矩陣API,使用户能夠輕鬆發現數據中的隱藏結構。

此外,Qdrant的距離矩陣API還與其他降維算法兼容,如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE,為數據探索提供了更多選擇。圖探索工具則通過力導向佈局和生成樹算法,使用户能夠交互式地探索數據關係,而無需重新訓練模型。這些工具共同構成了一個強大的數據探索生態系統,適用於從簡單可視化到複雜分析的多種場景。