2025-03-11 17:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

基于距离的数据探索

本文介绍如何利用Qdrant的距离矩阵API进行数据探索，包括降维、聚类和图表示等方法，帮助发现大规模非结构化数据中的隐藏结构。

来源Qdrant Blog作者: [email protected] (Andrey Vasnetsov)

在处理大量文档、图像或其他非结构化数据时，理解数据的整体结构往往比单独查看每个数据点更为重要。虽然数字在表格中通过图表获得意义，但可视化非结构化数据项之间的距离（相似/不相似）也能揭示隐藏的结构和模式。

Qdrant 1.12版本发布的新距离矩阵API，使得这一探索过程更加容易。该API能够高效计算数据点之间的距离矩阵，而距离矩阵的计算通常是聚类或可视化过程中最耗计算量的部分。由于Qdrant已对数据建立索引，距离矩阵的计算成本相对较低。

本文介绍了几种利用距离矩阵API进行数据探索的方法。首先是降维技术，用于将高维数据转换为低维表示，同时保持重要数据属性。文章使用UMAP算法，通过将高维点随机映射到2D空间，然后调整以匹配原始距离矩阵，从而实现可视化。使用Qdrant计算距离矩阵后，UMAP可以直接使用预计算的距离，跳过计算步骤。示例中使用Midjourney Styles数据集，通过Qdrant的snapshot恢复功能导入数据，并展示了如何用Python代码实现整个流程。

其次是聚类分析，将相似的数据点分组。许多聚类算法（如KMeans）接受预计算的距离矩阵作为输入，因此可以复用之前计算的矩阵。文章展示了如何使用scikit-learn的KMeans算法将数据分为10个簇，并利用UMAP降维后的结果进行可视化。

降维和聚类都需要训练步骤，且新增数据点需重新计算。图探索提供了另一种交互式方法，将数据点作为节点，相似度作为边，通过力导向布局实时渲染。针对大规模数据集，文章介绍了两种策略：从单个节点扩展，以及从集合中采样。Qdrant的图探索工具支持设置节点邻居数和采样大小，并可选择使用最小/最大生成树来突出最重要的边，从而揭示数据聚类和关键关系。

总之，向量相似性不仅限于最近邻查找，更是强大的数据探索工具。Qdrant提供了Web UI中的可视化和图探索工具，以及距离矩阵API，使用户能够轻松发现数据中的隐藏结构。

此外，Qdrant的距离矩阵API还与其他降维算法兼容，如scikit-learn提供的Isomap、SpectralEmbedding和t-SNE，为数据探索提供了更多选择。图探索工具则通过力导向布局和生成树算法，使用户能够交互式地探索数据关系，而无需重新训练模型。这些工具共同构成了一个强大的数据探索生态系统，适用于从简单可视化到复杂分析的多种场景。