AI原生文件格式
DocLang 是一種專為 AI 設計的開放標準文件格式,旨在解決 PDF、DOCX 等傳統格式對機器不友好的問題。它提供結構化、語義化的文件表示,保留閱讀順序、表格結構、後設資料等,並支援音訊、影像和影片。
DocLang 是一種面向人工智慧時代的文件格式標準,由聯合開發基金會(Joint Development Foundation)管理,並得到了 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal 等公司的支援。該格式旨在解決傳統文件格式(如 PDF、DOCX)對機器不友好的問題,這些格式專為渲染而設計,缺乏語義結構,導致 AI 模型在解析時面臨挑戰。
傳統文件格式如 PDF 和 DOCX 是為列印或編輯而構建的,它們描述了頁面的外觀,而非內容的含義。當 AI 模型處理這些文件時,需要依賴解析器猜測閱讀順序、表格結構等資訊,常常導致錯誤。DocLang 則提供了一種結構化的表示方法,每個元件都帶有語義標籤、邊界框座標和閱讀順序,可直接被 LLM 分詞器理解,無需額外的轉換層。
DocLang 的核心特性包括:AI 原生——每個元素直接對映到 LLM 令牌;無損——表格保持完整網格結構,影像位置保留;表達力強——語義角色、邊界框、文件層次結構完整編碼;超越文件——音訊轉錄、影像和影片片段也作為一等元素;明確性——每種內容型別有一種規範表示,消除解析器差異;開放——公開規範,無供應商鎖定。
在商業應用中,DocLang 能夠為 AI 系統提供可靠的結構化上下文,減少錯誤,加快決策,並預設支援合規性稽核。合規後設資料隨文件一起傳輸,下游系統自動讀取。
DocLang 規範基於約束的 XML 格式,專為 LLM 分詞器設計,實現了令牌的一對一對映。例如,表格使用 OTSL 表示,僅需 5 個結構令牌,而 HTML 需要 28 個。
與普通的文件解析器不同,DocLang 是一個標準,任何工具都可以實現。Docling 和 ABBYY FineReader 已經原生支援 DocLang 輸出。該標準的治理由聯合開發基金會確保開放性和中立性。
如果你正在使用 LLM 和 VLM 處理真實世界的文件,DocLang 可能正是你缺失的基礎層。它是免費的、開放的,並且已經可以使用。