2026-06-17站内改写1 分钟阅读更新: 2026-06-17

AI原生文档格式

DocLang 是一种专为 AI 设计的开放标准文档格式，旨在解决 PDF、DOCX 等传统格式对机器不友好的问题。它提供结构化、语义化的文档表示，保留阅读顺序、表格结构、元数据等，并支持音频、图像和视频。

DocLang 是一种面向人工智能时代的文档格式标准，由联合开发基金会（Joint Development Foundation）管理，并得到了 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal 等公司的支持。该格式旨在解决传统文档格式（如 PDF、DOCX）对机器不友好的问题，这些格式专为渲染而设计，缺乏语义结构，导致 AI 模型在解析时面临挑战。

传统文档格式如 PDF 和 DOCX 是为打印或编辑而构建的，它们描述了页面的外观，而非内容的含义。当 AI 模型处理这些文档时，需要依赖解析器猜测阅读顺序、表格结构等信息，常常导致错误。DocLang 则提供了一种结构化的表示方法，每个组件都带有语义标签、边界框坐标和阅读顺序，可直接被 LLM 分词器理解，无需额外的转换层。

DocLang 的核心特性包括：AI 原生——每个元素直接映射到 LLM 令牌；无损——表格保持完整网格结构，图像位置保留；表达力强——语义角色、边界框、文档层次结构完整编码；超越文档——音频转录、图像和视频片段也作为一等元素；明确性——每种内容类型有一种规范表示，消除解析器差异；开放——公开规范，无供应商锁定。

在商业应用中，DocLang 能够为 AI 系统提供可靠的结构化上下文，减少错误，加快决策，并默认支持合规性审核。合规元数据随文档一起传输，下游系统自动读取。

DocLang 规范基于约束的 XML 格式，专为 LLM 分词器设计，实现了令牌的一对一映射。例如，表格使用 OTSL 表示，仅需 5 个结构令牌，而 HTML 需要 28 个。

与普通的文档解析器不同，DocLang 是一个标准，任何工具都可以实现。Docling 和 ABBYY FineReader 已经原生支持 DocLang 输出。该标准的治理由联合开发基金会确保开放性和中立性。

如果你正在使用 LLM 和 VLM 处理真实世界的文档，DocLang 可能正是你缺失的基础层。它是免费的、开放的，并且已经可以使用。