通过多尺度层注意力增强甲骨文识别
提出了一种新的多尺度层注意力(MSLA)方法,用于改善甲骨文(OBI)识别。该方法显式建模多尺度和跨层特征交互,从而更准确地捕捉甲骨文的细粒度细节。实验表明,MSLA在大型数据集上持续优于现有注意力机制,同时保持计算效率。
甲骨文(Oracle Bone Inscriptions, OBI)是中国古代文化的重要载体,对研究商周历史具有不可替代的价值。然而,甲骨文的识别工作长期以来一直面临巨大挑战:字形复杂多变、结构不规则,并且由于年代久远,许多刻痕已经严重退化。传统上,这一工作依赖于考古学家的专业知识进行人工辨识,不仅耗时费力,而且容易出错。近年来,深度学习技术在通用图像识别领域取得了突破性进展,但应用于甲骨文识别时却表现不佳,因为现有方法难以捕捉甲骨文中那些细微却关键的纹路特征。即便是目前最先进的层注意力机制,虽然通过增强层间交互来捕捉细粒度依赖,但在甲骨文识别上的改进依然十分有限。
为了克服这些限制,来自中国的研究团队提出了一种名为多尺度层注意力(Multi-Scale Layer Attention, MSLA)的新型范式。MSLA的核心创新在于显式地建模了多尺度与跨层特征交互:它不仅关注同一尺度内的细节,还通过在不同空间尺度上融合信息,丰富了特征表示中的细粒度细节。这种设计使得模型能够更准确、更鲁棒地识别甲骨文字形,即使面对磨损或部分缺失的刻痕也能保持较高的识别精度。研究团队在大型甲骨文数据集上进行了广泛实验,结果证明MSLA在识别准确率上持续超越现有的多种注意力机制,同时并未显著增加计算负担,保持了良好的效率。
这一成果不仅为甲骨文的自动识别提供了新的技术路径,也展示了计算机视觉技术在人文科学研究中的巨大潜力。未来,研究人员计划将MSLA扩展到其他古代文字识别任务中,并探索其与多模态数据(如拓片照片与三维扫描)的结合,以进一步推动古文字研究的数字化进程。该论文已提交至arXiv,作者包括Chaowen Yan等五位研究人员。