AI原生文档格式
DocLang 是一种专为 AI 设计的开放标准文档格式,旨在解决 PDF、DOCX 等传统格式对机器不友好的问题。它提供结构化、语义化的文档表示,保留阅读顺序、表格结构、元数据等,并支持音频、图像和视频。
DocLang 是一种面向人工智能时代的文档格式标准,由联合开发基金会(Joint Development Foundation)管理,并得到了 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal 等公司的支持。该格式旨在解决传统文档格式(如 PDF、DOCX)对机器不友好的问题,这些格式专为渲染而设计,缺乏语义结构,导致 AI 模型在解析时面临挑战。
传统文档格式如 PDF 和 DOCX 是为打印或编辑而构建的,它们描述了页面的外观,而非内容的含义。当 AI 模型处理这些文档时,需要依赖解析器猜测阅读顺序、表格结构等信息,常常导致错误。DocLang 则提供了一种结构化的表示方法,每个组件都带有语义标签、边界框坐标和阅读顺序,可直接被 LLM 分词器理解,无需额外的转换层。
DocLang 的核心特性包括:AI 原生——每个元素直接映射到 LLM 令牌;无损——表格保持完整网格结构,图像位置保留;表达力强——语义角色、边界框、文档层次结构完整编码;超越文档——音频转录、图像和视频片段也作为一等元素;明确性——每种内容类型有一种规范表示,消除解析器差异;开放——公开规范,无供应商锁定。
在商业应用中,DocLang 能够为 AI 系统提供可靠的结构化上下文,减少错误,加快决策,并默认支持合规性审核。合规元数据随文档一起传输,下游系统自动读取。
DocLang 规范基于约束的 XML 格式,专为 LLM 分词器设计,实现了令牌的一对一映射。例如,表格使用 OTSL 表示,仅需 5 个结构令牌,而 HTML 需要 28 个。
与普通的文档解析器不同,DocLang 是一个标准,任何工具都可以实现。Docling 和 ABBYY FineReader 已经原生支持 DocLang 输出。该标准的治理由联合开发基金会确保开放性和中立性。
如果你正在使用 LLM 和 VLM 处理真实世界的文档,DocLang 可能正是你缺失的基础层。它是免费的、开放的,并且已经可以使用。