2026-06-04 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

端到端文本行检测与排序

本文介绍了一种名为Orli（有序回归线条）的端到端模型，将文本行检测和阅读顺序排序统一为图像到序列的问题。Orli在196,691页混合语料库上训练，涵盖十种书写系统，在不使用数据集特定训练的情况下，在cBAD线条检测上略超先前最先进水平，在多个阅读顺序基准上零样本达到近乎完美的覆盖和排序，并能通过少量微调适应专业领域布局。代码和模型权重已开源。

来源arXiv Computer Vision作者: Benjamin Kiessling (ALMAnaCH)

在历史文档的文本识别流程中，布局分析通常被分解为线条检测和独立的阅读顺序步骤，而后者多采用手工编码的几何启发式方法，在处理旁注、多栏、表格及特定编辑惯例时表现不佳。为了克服这些局限性，研究人员提出了Orli（Ordered Regression of Lines），这是一个端到端模型，将文本行检测和阅读顺序预测统一为一个图像到序列的任务。具体来说，Orli从页面图像中自回归地生成文本行基线，并直接按照阅读顺序输出。

Orli的基线表示采用了弦框架参数化，通过定义基线的起点、终点和垂直偏移量来参数化线条，这种表示不仅简洁，而且能够自然地处理弯曲或倾斜的文本行。迭代精化头逐步调整偏移量，局部视觉精化器则根据图像特征进一步优化曲线。这种设计使得Orli能够准确捕捉行的位置、方向和范围，同时适应各种复杂的布局。该模型在包含196,691页、涵盖十种不同书写系统（包括拉丁、西里尔、阿拉伯、中文等）的异构语料库上进行了训练，确保了其广泛的适用性。

实验结果表明，在不依赖特定数据集训练的情况下，Orli在cBAD线条检测基准上的表现略超过此前报道的最优结果。更令人印象深刻的是，在多个阅读顺序基准上，Orli以零样本方式达到了近乎完美的覆盖率和排序准确性。值得注意的是，Orli在阅读顺序基准上的零样本表现表明，它已经学会了通用的阅读顺序知识，而不仅仅是记忆特定数据集的模式。此外，通过少量微调，Orli能够有效适应更专业的领域外布局，例如复杂的学术排版或手稿，展现出强大的泛化能力。

这项研究的代码和模型权重已在MIT许可下开源，研究人员和开发者可以自由使用和扩展。对于数字人文研究人员来说，Orli能够自动处理大规模历史文献集合，显著提高文本提取的效率。此外，它的开源特性允许社区针对特定需求进行定制，进一步推动该领域的发展。Orli的提出为历史文档的自动化处理提供了高效的新方案，有望简化数字人文和档案数字化中的文本识别流程，减少对人工设计规则的依赖。