AI News HubLIVE
站內改寫1 分鐘閱讀

印加奇普的結構模式挖掘:無監督聚類、來源分類與聖谷匹配的計算驗證

本研究應用機器學習管道分析619個印加奇普(結繩記事裝置),通過無監督聚類發現三個結構組,監督分類達到86% F1分數,並通過SHAP識別出繩索捻向為帝國風格的關鍵區分特徵。研究還揭示了殖民時期博物館收藏的結構印記,並獨立驗證了聖谷奇普的半族結構。

來源arXiv Computational Linguistics作者: Maria Contreras

印加帝國(約1400-1532年)使用一種稱為奇普(khipu)的結繩裝置作為主要記錄媒介,但至今其系統尚未被破譯。一項新研究通過可重複的機器學習管道,對公開的奇普數據庫進行了大規模分析,揭示了結構模式,併為來源分類提供了新方法。

研究團隊利用Open Khipu Repository(OKR)中的619個奇普,包含54,403條繩和110,677個結,為每個奇普設計了27個結構特徵。他們首先應用UMAP和HDBSCAN進行無監督聚類,成功識別出三個結構上不同的組,輪廓係數高達0.769,表明聚類質量良好。其中一個聚類並非由地理區域主導,而是由19世紀歐洲博物館收藏的奇普組成,這表明殖民時期的獲取和記錄實踐在奇普的物理結構中留下了編碼痕跡。

隨後,通過梯度提升進行監督學習,對印加晚期帝國風格奇普的來源分類達到F1分數0.86。利用SHAP可解釋性分析,發現繩索的捻向(cord twist direction)是區分帝國風格奇普的最主要結構特徵。這一發現表明,帝國行政系統可能通過標準的繩索生產技術來統一記錄實踐。

此外,該研究獨立計算驗證了Medrano和Urton(2018年)報告的聖谷六個奇普的recto/verso(半族)結構。通過僅使用公開的OKR數據庫,無需接觸實物,研究團隊成功復現了聚合附着比,並識別出其中唯一一個混合樣本。這一結果證實了先前的人類學觀察,並展示了計算方法在驗證考古假設中的價值。

研究還得出一個負面結果:將繩結類型序列作為n-gram編碼後,並未提供超出聚合特徵的額外來源信號。這意味着奇普的宏觀結構特徵(如繩索數量、顏色、捻向等)可能比微觀序列模式更能反映其來源信息。

所有代碼和數據均已公開,為未來研究提供了可復現的基礎。這項工作不僅展示了機器學習在考古學中的潛力,也為理解印加帝國的記錄系統開闢了新路徑。研究者可以在此基礎上進一步探索奇普的語義內容,或許有朝一日能夠破譯這一古老的編碼系統。