AI News HubLIVE
站内改写1 分钟阅读

印加奇普的结构模式挖掘:无监督聚类、来源分类与圣谷匹配的计算验证

本研究应用机器学习管道分析619个印加奇普(结绳记事装置),通过无监督聚类发现三个结构组,监督分类达到86% F1分数,并通过SHAP识别出绳索捻向为帝国风格的关键区分特征。研究还揭示了殖民时期博物馆收藏的结构印记,并独立验证了圣谷奇普的半族结构。

来源arXiv Computational Linguistics作者: Maria Contreras

印加帝国(约1400-1532年)使用一种称为奇普(khipu)的结绳装置作为主要记录媒介,但至今其系统尚未被破译。一项新研究通过可重复的机器学习管道,对公开的奇普数据库进行了大规模分析,揭示了结构模式,并为来源分类提供了新方法。

研究团队利用Open Khipu Repository(OKR)中的619个奇普,包含54,403条绳和110,677个结,为每个奇普设计了27个结构特征。他们首先应用UMAP和HDBSCAN进行无监督聚类,成功识别出三个结构上不同的组,轮廓系数高达0.769,表明聚类质量良好。其中一个聚类并非由地理区域主导,而是由19世纪欧洲博物馆收藏的奇普组成,这表明殖民时期的获取和记录实践在奇普的物理结构中留下了编码痕迹。

随后,通过梯度提升进行监督学习,对印加晚期帝国风格奇普的来源分类达到F1分数0.86。利用SHAP可解释性分析,发现绳索的捻向(cord twist direction)是区分帝国风格奇普的最主要结构特征。这一发现表明,帝国行政系统可能通过标准的绳索生产技术来统一记录实践。

此外,该研究独立计算验证了Medrano和Urton(2018年)报告的圣谷六个奇普的recto/verso(半族)结构。通过仅使用公开的OKR数据库,无需接触实物,研究团队成功复现了聚合附着比,并识别出其中唯一一个混合样本。这一结果证实了先前的人类学观察,并展示了计算方法在验证考古假设中的价值。

研究还得出一个负面结果:将绳结类型序列作为n-gram编码后,并未提供超出聚合特征的额外来源信号。这意味着奇普的宏观结构特征(如绳索数量、颜色、捻向等)可能比微观序列模式更能反映其来源信息。

所有代码和数据均已公开,为未来研究提供了可复现的基础。这项工作不仅展示了机器学习在考古学中的潜力,也为理解印加帝国的记录系统开辟了新路径。研究者可以在此基础上进一步探索奇普的语义内容,或许有朝一日能够破译这一古老的编码系统。