AI News HubLIVE
站内改写1 分鐘閱讀

一個溫和的建議:重新格式化一切,讓文件更易於AI消化

在Linux基金會下,LF AI & Data Foundation組建了DocLang工作組,致力於開發一種AI友好的文件格式,以替代PDF、Markdown等現有格式。該格式由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis聯合創立,透過1:1的令牌對映最佳化大語言模型的提示,降低成本並提高準確性。

來源Hacker News AI作者: gmays

近年來,隨著人工智慧技術的快速發展,如何讓AI高效地理解文件內容成為了一個關鍵問題。現有的文件格式如PDF、Markdown、HTML和LaTeX大多是為人類閱讀而設計,缺乏機器可解析的語義結構,導致AI模型在處理時需要大量額外計算。為了解決這一問題,Linux基金會旗下的LF AI & Data Foundation宣佈成立DocLang工作組,旨在開發一種AI原生、損失無損的文件格式。

DocLang由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis等公司聯合發起。該格式基於IBM在2024年推出的開源工具Docling,進一步擴充套件為一種標準化的交換格式。與PDF等格式不同,DocLang採用有限的XML詞彙表,與大型語言模型的標記器(tokenizer)實現1:1對映,從而生成經過最佳化的提示(prompt),減少令牌消耗,提高處理效率。

DocLang的設計注重保留文件的結構、佈局和語義資訊,支援表格、公式、圖表以及多模態內容。它不僅是開放標準,還引入了治理功能,確保文件的出處和後設資料在傳輸過程中不被剝離。據ABBYY AI戰略副總裁Maxime Vermeir介紹,DocLang為現代AI系統提供了一個確定性的基礎,解決了文件“為人設計而非為機器設計”的根本問題。

成本的節約是DocLang的另一大亮點。根據ABBYY的基準測試,在處理IBM 2025年度報告時,PDF版本需要8,421個輸入令牌和512個輸出令牌,而DocLang版本僅需5,310個輸入令牌和498個輸出令牌,延遲也從4.2秒降至2.7秒,且質量更優。總體而言,根據模型和文件複雜度的不同,成本降低可達4倍至30倍以上。

儘管如此,ABBYY的Jon Knisley表示,DocLang仍處於早期階段,工作組歡迎更多企業和機構加入。該標準開放且免費,旨在推動企業AI文件處理的標準化和高效化。