AI News HubLIVE
站内改写2 分钟阅读

端到端文本行检测与排序

本文介绍了一种名为Orli(有序回归线条)的端到端模型,将文本行检测和阅读顺序排序统一为图像到序列的问题。Orli在196,691页混合语料库上训练,涵盖十种书写系统,在不使用数据集特定训练的情况下,在cBAD线条检测上略超先前最先进水平,在多个阅读顺序基准上零样本达到近乎完美的覆盖和排序,并能通过少量微调适应专业领域布局。代码和模型权重已开源。

来源arXiv Computer Vision作者: Benjamin Kiessling (ALMAnaCH)

在历史文档的文本识别流程中,布局分析通常被分解为线条检测和独立的阅读顺序步骤,而后者多采用手工编码的几何启发式方法,在处理旁注、多栏、表格及特定编辑惯例时表现不佳。为了克服这些局限性,研究人员提出了Orli(Ordered Regression of Lines),这是一个端到端模型,将文本行检测和阅读顺序预测统一为一个图像到序列的任务。具体来说,Orli从页面图像中自回归地生成文本行基线,并直接按照阅读顺序输出。

Orli的基线表示采用了弦框架参数化,通过定义基线的起点、终点和垂直偏移量来参数化线条,这种表示不仅简洁,而且能够自然地处理弯曲或倾斜的文本行。迭代精化头逐步调整偏移量,局部视觉精化器则根据图像特征进一步优化曲线。这种设计使得Orli能够准确捕捉行的位置、方向和范围,同时适应各种复杂的布局。该模型在包含196,691页、涵盖十种不同书写系统(包括拉丁、西里尔、阿拉伯、中文等)的异构语料库上进行了训练,确保了其广泛的适用性。

实验结果表明,在不依赖特定数据集训练的情况下,Orli在cBAD线条检测基准上的表现略超过此前报道的最优结果。更令人印象深刻的是,在多个阅读顺序基准上,Orli以零样本方式达到了近乎完美的覆盖率和排序准确性。值得注意的是,Orli在阅读顺序基准上的零样本表现表明,它已经学会了通用的阅读顺序知识,而不仅仅是记忆特定数据集的模式。此外,通过少量微调,Orli能够有效适应更专业的领域外布局,例如复杂的学术排版或手稿,展现出强大的泛化能力。

这项研究的代码和模型权重已在MIT许可下开源,研究人员和开发者可以自由使用和扩展。对于数字人文研究人员来说,Orli能够自动处理大规模历史文献集合,显著提高文本提取的效率。此外,它的开源特性允许社区针对特定需求进行定制,进一步推动该领域的发展。Orli的提出为历史文档的自动化处理提供了高效的新方案,有望简化数字人文和档案数字化中的文本识别流程,减少对人工设计规则的依赖。