2026-06-18 23:51 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

LiteParse 新增 Markdown 输出功能

LiteParse 2.1 推出最快的开源无模型 PDF 转 Markdown 管道，在三大基准测试中均取得领先成绩，并支持多语言运行环境。

几周前，我们发布了 LiteParse 2.0，号称最快的 PDF 转文本工具。但用户反复追问：基准测试在哪？是否支持 Markdown？

LiteParse 2.1 以最快的开源无模型 PDF 转 Markdown 管道回答了这些问题。我们在三个标准基准上进行了测试，并在所有无模型方法中取得了最高总分：opendataloader-bench 0.875，olmOCR-bench 0.391，ParseBench 0.3279。

立即访问演示网站（在浏览器中使用 WASM 运行）或安装最新版本！

工作原理

构建 Markdown 启发式管道主要分为两部分：可检测信号和监听这些信号的输出元素类型。与机器学习模型类似，这归结为输入、权重和激活！

PDF 携带大量数据：字体族、字号、文本位置等。所有这些都被视为输入信号，将文本分类为特定的 Markdown 元素，如段落、表格、列表和标题。

LiteParse 使用自定义 PDFium 分支捕获尽可能多的信号，并将其与现有网格投影算法结合，以纯启发式规则方法提供最佳 Markdown 输出。

衡量 Markdown 性能

事实证明，Markdown 不仅是高度请求的输出选项，而且没有它很难对 PDF 解析工具进行基准测试。所有现有基准都强烈针对 Markdown 测量。通过构建此管道，我们不仅提供了新的输出模式，还能衡量和提升整体提取质量。

本着“轻量”的精神，LiteParse 的 Markdown 模式尽可能轻快。这种方法优先考虑速度，但必须接受准确率的上限——我们不会比 LlamaParse 做得更好。

基准测试结果

ParseBench

LiteParse 在总体上领先。图表和视觉接地列对所有无模型工具而言基本上是噪声。LiteParse 在表格、内容忠实度和语义格式方面表现出色。

opendataloader-bench

LiteParse 在所有类别中领先，包括阅读顺序、表格结构和标题层级。

olmOCR-bench

LiteParse 在大多数类别中领先，在基线检查、页眉页脚、多列和表格测试中表现强劲。旧扫描和数学分数较低，符合预期。

速度测试

LiteParse 平均每页仅需 3.16 毫秒，远快于其他工具。

许可证与可移植性

LiteParse 采用 Apache-2.0 许可证，支持四种运行环境，包括通过 WASM 在浏览器中原生运行。

关于 2.1 版范围

这三个基准并不总是对“好”的 Markdown 达成一致。我们调整输出以赢得一个基准会导致另一个基准倒退。因此，我们保持 2.1 版在三者之间平衡表现。

立即试用

LiteParse 无处不在，2.1 版现已可用。遵循文档链接获取源码详情。