2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:15 UTC+8

通过多尺度层注意力增强甲骨文识别

提出了一种新的多尺度层注意力（MSLA）方法，用于改善甲骨文（OBI）识别。该方法显式建模多尺度和跨层特征交互，从而更准确地捕捉甲骨文的细粒度细节。实验表明，MSLA在大型数据集上持续优于现有注意力机制，同时保持计算效率。

来源arXiv Computer Vision作者: Chaowen Yan, Kaishen Wang, Yong Wang, Jianlong Xiong, Tao He

甲骨文（Oracle Bone Inscriptions, OBI）是中国古代文化的重要载体，对研究商周历史具有不可替代的价值。然而，甲骨文的识别工作长期以来一直面临巨大挑战：字形复杂多变、结构不规则，并且由于年代久远，许多刻痕已经严重退化。传统上，这一工作依赖于考古学家的专业知识进行人工辨识，不仅耗时费力，而且容易出错。近年来，深度学习技术在通用图像识别领域取得了突破性进展，但应用于甲骨文识别时却表现不佳，因为现有方法难以捕捉甲骨文中那些细微却关键的纹路特征。即便是目前最先进的层注意力机制，虽然通过增强层间交互来捕捉细粒度依赖，但在甲骨文识别上的改进依然十分有限。

为了克服这些限制，来自中国的研究团队提出了一种名为多尺度层注意力（Multi-Scale Layer Attention, MSLA）的新型范式。MSLA的核心创新在于显式地建模了多尺度与跨层特征交互：它不仅关注同一尺度内的细节，还通过在不同空间尺度上融合信息，丰富了特征表示中的细粒度细节。这种设计使得模型能够更准确、更鲁棒地识别甲骨文字形，即使面对磨损或部分缺失的刻痕也能保持较高的识别精度。研究团队在大型甲骨文数据集上进行了广泛实验，结果证明MSLA在识别准确率上持续超越现有的多种注意力机制，同时并未显著增加计算负担，保持了良好的效率。

这一成果不仅为甲骨文的自动识别提供了新的技术路径，也展示了计算机视觉技术在人文科学研究中的巨大潜力。未来，研究人员计划将MSLA扩展到其他古代文字识别任务中，并探索其与多模态数据（如拓片照片与三维扫描）的结合，以进一步推动古文字研究的数字化进程。该论文已提交至arXiv，作者包括Chaowen Yan等五位研究人员。