LiteParse 新增 Markdown 输出功能
LiteParse 2.1 推出最快的开源无模型 PDF 转 Markdown 管道,在三大基准测试中均取得领先成绩,并支持多语言运行环境。
几周前,我们发布了 LiteParse 2.0,号称最快的 PDF 转文本工具。但用户反复追问:基准测试在哪?是否支持 Markdown?
LiteParse 2.1 以最快的开源无模型 PDF 转 Markdown 管道回答了这些问题。我们在三个标准基准上进行了测试,并在所有无模型方法中取得了最高总分:opendataloader-bench 0.875,olmOCR-bench 0.391,ParseBench 0.3279。
立即访问演示网站(在浏览器中使用 WASM 运行)或安装最新版本!
工作原理
构建 Markdown 启发式管道主要分为两部分:可检测信号和监听这些信号的输出元素类型。与机器学习模型类似,这归结为输入、权重和激活!
PDF 携带大量数据:字体族、字号、文本位置等。所有这些都被视为输入信号,将文本分类为特定的 Markdown 元素,如段落、表格、列表和标题。
LiteParse 使用自定义 PDFium 分支捕获尽可能多的信号,并将其与现有网格投影算法结合,以纯启发式规则方法提供最佳 Markdown 输出。
衡量 Markdown 性能
事实证明,Markdown 不仅是高度请求的输出选项,而且没有它很难对 PDF 解析工具进行基准测试。所有现有基准都强烈针对 Markdown 测量。通过构建此管道,我们不仅提供了新的输出模式,还能衡量和提升整体提取质量。
本着“轻量”的精神,LiteParse 的 Markdown 模式尽可能轻快。这种方法优先考虑速度,但必须接受准确率的上限——我们不会比 LlamaParse 做得更好。
基准测试结果
ParseBench
LiteParse 在总体上领先。图表和视觉接地列对所有无模型工具而言基本上是噪声。LiteParse 在表格、内容忠实度和语义格式方面表现出色。
opendataloader-bench
LiteParse 在所有类别中领先,包括阅读顺序、表格结构和标题层级。
olmOCR-bench
LiteParse 在大多数类别中领先,在基线检查、页眉页脚、多列和表格测试中表现强劲。旧扫描和数学分数较低,符合预期。
速度测试
LiteParse 平均每页仅需 3.16 毫秒,远快于其他工具。
许可证与可移植性
LiteParse 采用 Apache-2.0 许可证,支持四种运行环境,包括通过 WASM 在浏览器中原生运行。
关于 2.1 版范围
这三个基准并不总是对“好”的 Markdown 达成一致。我们调整输出以赢得一个基准会导致另一个基准倒退。因此,我们保持 2.1 版在三者之间平衡表现。
立即试用
LiteParse 无处不在,2.1 版现已可用。遵循文档链接获取源码详情。