AI原生文檔格式
DocLang 是一種專為 AI 設計的開放標準文檔格式,旨在解決 PDF、DOCX 等傳統格式對機器不友好的問題。它提供結構化、語義化的文檔表示,保留閲讀順序、表格結構、元數據等,並支持音頻、圖像和視頻。
DocLang 是一種面向人工智能時代的文檔格式標準,由聯合開發基金會(Joint Development Foundation)管理,並得到了 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal 等公司的支持。該格式旨在解決傳統文檔格式(如 PDF、DOCX)對機器不友好的問題,這些格式專為渲染而設計,缺乏語義結構,導致 AI 模型在解析時面臨挑戰。
傳統文檔格式如 PDF 和 DOCX 是為打印或編輯而構建的,它們描述了頁面的外觀,而非內容的含義。當 AI 模型處理這些文檔時,需要依賴解析器猜測閲讀順序、表格結構等信息,常常導致錯誤。DocLang 則提供了一種結構化的表示方法,每個組件都帶有語義標籤、邊界框座標和閲讀順序,可直接被 LLM 分詞器理解,無需額外的轉換層。
DocLang 的核心特性包括:AI 原生——每個元素直接映射到 LLM 令牌;無損——表格保持完整網格結構,圖像位置保留;表達力強——語義角色、邊界框、文檔層次結構完整編碼;超越文檔——音頻轉錄、圖像和視頻片段也作為一等元素;明確性——每種內容類型有一種規範表示,消除解析器差異;開放——公開規範,無供應商鎖定。
在商業應用中,DocLang 能夠為 AI 系統提供可靠的結構化上下文,減少錯誤,加快決策,並默認支持合規性審核。合規元數據隨文檔一起傳輸,下游系統自動讀取。
DocLang 規範基於約束的 XML 格式,專為 LLM 分詞器設計,實現了令牌的一對一映射。例如,表格使用 OTSL 表示,僅需 5 個結構令牌,而 HTML 需要 28 個。
與普通的文檔解析器不同,DocLang 是一個標準,任何工具都可以實現。Docling 和 ABBYY FineReader 已經原生支持 DocLang 輸出。該標準的治理由聯合開發基金會確保開放性和中立性。
如果你正在使用 LLM 和 VLM 處理真實世界的文檔,DocLang 可能正是你缺失的基礎層。它是免費的、開放的,並且已經可以使用。