2026-06-09站内改写1 分钟阅读更新: 2026-06-09

经过世纪跨度扫描文档档案微调的页面图像分类器，用于进一步内容特定处理

一种基于超过48,000张历史文档页面图像微调的图像分类器，使用RegNetY-16GF达到99.16%的准确率，可实现自动分类以支持OCR和数据提取。CLIP模型虽然在测试集上表现优异，但在未标注数据上表现不佳。

来源arXiv Computer Vision作者: Kateryna Lutsai, Pavel Stra\v{n}\'ak, David Nov\'ak, Dana K\v{r}iv\'ankov\'a

在人文领域的数字化项目中，大量异质的歷史文献档案被创建，手动分类在规模上变得不切实际。本文解决了对扫描页面图像进行自动分类的需求，根据视觉内容类型——文本、表格和图形——进行分类，从而实现诸如光学字符识别（OCR）或结构化数据提取等下游内容特定处理。

研究团队开发并评估了一个图像分类系统，使用的数据集包含超过48,000张来自百年历史的捷克考古档案的标注历史页面图像。这些标注经历了四个连续的阶段，并经过领域专家审核。首先，使用手工设计的图像特征建立了一个随机森林分类器基线。随后，微调并比较了多种深度学习架构：卷积神经网络（EfficientNetV2、RegNetY）、视觉和文档图像Transformer（ViT、DiT）以及多模态CLIP模型。与领域专家协作设计了11类标签方案，并通过五折交叉验证进行评估。

结果显示，基于特征的基线准确率约为75%。微调后的CNN和Transformer大幅超越了基线，其中RegNetY-16GF在测试集上达到99.16%的Top-1准确率，ViT-large达到99.12%。CLIP ViT-B/16在优化文本描述后达到99.14%。结论表明，纯图像模型，特别是RegNetY-16GF，提供了近乎完美的分类准确性，并在649,508张未标注档案页面上产生了超过90%的模型间一致性标签。而微调的CLIP模型尽管在测试集准确率上具有竞争力，但在未标注数据上与纯图像模型的一致性低于65%，使其不太适合部署。最终的模型、标注数据集和软件均以开源许可证公开提供。