AI News HubLIVE
站内改写2 分钟阅读

基于距离的数据探索

本文介绍如何利用Qdrant的距离矩阵API进行数据探索,包括降维、聚类和图表示等方法,帮助发现大规模非结构化数据中的隐藏结构。

来源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在处理大量文档、图像或其他非结构化数据时,理解数据的整体结构往往比单独查看每个数据点更为重要。虽然数字在表格中通过图表获得意义,但可视化非结构化数据项之间的距离(相似/不相似)也能揭示隐藏的结构和模式。

Qdrant 1.12版本发布的新距离矩阵API,使得这一探索过程更加容易。该API能够高效计算数据点之间的距离矩阵,而距离矩阵的计算通常是聚类或可视化过程中最耗计算量的部分。由于Qdrant已对数据建立索引,距离矩阵的计算成本相对较低。

本文介绍了几种利用距离矩阵API进行数据探索的方法。首先是降维技术,用于将高维数据转换为低维表示,同时保持重要数据属性。文章使用UMAP算法,通过将高维点随机映射到2D空间,然后调整以匹配原始距离矩阵,从而实现可视化。使用Qdrant计算距离矩阵后,UMAP可以直接使用预计算的距离,跳过计算步骤。示例中使用Midjourney Styles数据集,通过Qdrant的snapshot恢复功能导入数据,并展示了如何用Python代码实现整个流程。

其次是聚类分析,将相似的数据点分组。许多聚类算法(如KMeans)接受预计算的距离矩阵作为输入,因此可以复用之前计算的矩阵。文章展示了如何使用scikit-learn的KMeans算法将数据分为10个簇,并利用UMAP降维后的结果进行可视化。

降维和聚类都需要训练步骤,且新增数据点需重新计算。图探索提供了另一种交互式方法,将数据点作为节点,相似度作为边,通过力导向布局实时渲染。针对大规模数据集,文章介绍了两种策略:从单个节点扩展,以及从集合中采样。Qdrant的图探索工具支持设置节点邻居数和采样大小,并可选择使用最小/最大生成树来突出最重要的边,从而揭示数据聚类和关键关系。

总之,向量相似性不仅限于最近邻查找,更是强大的数据探索工具。Qdrant提供了Web UI中的可视化和图探索工具,以及距离矩阵API,使用户能够轻松发现数据中的隐藏结构。

此外,Qdrant的距离矩阵API还与其他降维算法兼容,如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE,为数据探索提供了更多选择。图探索工具则通过力导向布局和生成树算法,使用户能够交互式地探索数据关系,而无需重新训练模型。这些工具共同构成了一个强大的数据探索生态系统,适用于从简单可视化到复杂分析的多种场景。