经过世纪跨度扫描文档档案微调的页面图像分类器,用于进一步内容特定处理
一种基于超过48,000张历史文档页面图像微调的图像分类器,使用RegNetY-16GF达到99.16%的准确率,可实现自动分类以支持OCR和数据提取。CLIP模型虽然在测试集上表现优异,但在未标注数据上表现不佳。
在人文领域的数字化项目中,大量异质的歷史文献档案被创建,手动分类在规模上变得不切实际。本文解决了对扫描页面图像进行自动分类的需求,根据视觉内容类型——文本、表格和图形——进行分类,从而实现诸如光学字符识别(OCR)或结构化数据提取等下游内容特定处理。
研究团队开发并评估了一个图像分类系统,使用的数据集包含超过48,000张来自百年历史的捷克考古档案的标注历史页面图像。这些标注经历了四个连续的阶段,并经过领域专家审核。首先,使用手工设计的图像特征建立了一个随机森林分类器基线。随后,微调并比较了多种深度学习架构:卷积神经网络(EfficientNetV2、RegNetY)、视觉和文档图像Transformer(ViT、DiT)以及多模态CLIP模型。与领域专家协作设计了11类标签方案,并通过五折交叉验证进行评估。
结果显示,基于特征的基线准确率约为75%。微调后的CNN和Transformer大幅超越了基线,其中RegNetY-16GF在测试集上达到99.16%的Top-1准确率,ViT-large达到99.12%。CLIP ViT-B/16在优化文本描述后达到99.14%。结论表明,纯图像模型,特别是RegNetY-16GF,提供了近乎完美的分类准确性,并在649,508张未标注档案页面上产生了超过90%的模型间一致性标签。而微调的CLIP模型尽管在测试集准确率上具有竞争力,但在未标注数据上与纯图像模型的一致性低于65%,使其不太适合部署。最终的模型、标注数据集和软件均以开源许可证公开提供。