AI News HubLIVE
站内改写1 分钟阅读

一个温和的建议:重新格式化一切,让文档更易于AI消化

在Linux基金会下,LF AI & Data Foundation组建了DocLang工作组,致力于开发一种AI友好的文档格式,以替代PDF、Markdown等现有格式。该格式由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis联合创立,通过1:1的令牌映射优化大语言模型的提示,降低成本并提高准确性。

来源Hacker News AI作者: gmays

近年来,随着人工智能技术的快速发展,如何让AI高效地理解文档内容成为了一个关键问题。现有的文档格式如PDF、Markdown、HTML和LaTeX大多是为人类阅读而设计,缺乏机器可解析的语义结构,导致AI模型在处理时需要大量额外计算。为了解决这一问题,Linux基金会旗下的LF AI & Data Foundation宣布成立DocLang工作组,旨在开发一种AI原生、损失无损的文档格式。

DocLang由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis等公司联合发起。该格式基于IBM在2024年推出的开源工具Docling,进一步扩展为一种标准化的交换格式。与PDF等格式不同,DocLang采用有限的XML词汇表,与大型语言模型的标记器(tokenizer)实现1:1映射,从而生成经过优化的提示(prompt),减少令牌消耗,提高处理效率。

DocLang的设计注重保留文档的结构、布局和语义信息,支持表格、公式、图表以及多模态内容。它不仅是开放标准,还引入了治理功能,确保文档的出处和元数据在传输过程中不被剥离。据ABBYY AI战略副总裁Maxime Vermeir介绍,DocLang为现代AI系统提供了一个确定性的基础,解决了文档“为人设计而非为机器设计”的根本问题。

成本的节约是DocLang的另一大亮点。根据ABBYY的基准测试,在处理IBM 2025年度报告时,PDF版本需要8,421个输入令牌和512个输出令牌,而DocLang版本仅需5,310个输入令牌和498个输出令牌,延迟也从4.2秒降至2.7秒,且质量更优。总体而言,根据模型和文档复杂度的不同,成本降低可达4倍至30倍以上。

尽管如此,ABBYY的Jon Knisley表示,DocLang仍处于早期阶段,工作组欢迎更多企业和机构加入。该标准开放且免费,旨在推动企业AI文档处理的标准化和高效化。