AI News HubLIVE
站内改写1 分钟阅读

DocArena:将原始文档转化为可控的训练环境,用于文档搜索智能体

DocArena是一个全自动数据整理流水线,利用多模态大语言模型(MLLM)将原始文档转化为可控、可扩展的训练环境,用于训练文档搜索智能体。它无需人工标注,可生成推理密集的问答对,并构建包含8,336篇文档、覆盖16个领域和49种语言的DocArena-79K数据集。实验表明,基于DocArena训练的智能体在检索准确率和问答质量上均达到最优。

来源arXiv Computer Vision作者: Jiamian Wang, Ruiyi Zhang, Tong Yu, Jing Shi, Samyadeep Basu, Rajiv Jain, Zhiqiang Tao, Tong Sun

近日,一篇发表于arXiv的论文提出了DocArena,一种全自动数据整理流水线,旨在将原始文档转化为可控、可扩展的训练环境,用于训练文档搜索智能体。该研究由Jiamian Wang等8位作者完成,论文编号为2606.26122,于2026年5月27日提交。

传统的搜索智能体训练方法通常依赖强化学习,从(问题、答案、证据)三元组中学习,无需专家轨迹。这些三元组构成了训练环境,其属性直接影响智能体能够发展的搜索策略和泛化能力。尽管先前的工作在提高训练数据质量方面取得了进展,但现有环境仍以文本为主,难以实现可控性、可扩展性,且无法处理多模态数据。DocArena正是为解决这些局限性而设计。

该流水线首先通过基于多模态大语言模型(MLLM)的视觉感知对文档进行结构化和索引。然后分析跨页面的信息分布,以构建推理密集的问答对。最后,通过MLLM执行级联质量保证操作,确保数据质量。整个过程无需任何人工标注,完全自动化。基于此,研究团队推出了DocArena-79K数据集,包含来自8,336篇文档的问答对,覆盖16个领域和49种语言。

此外,他们还设计了一种Doc-Search智能体架构,将视觉感知与策略模型解耦,使得基于文本的大语言模型(LLM)能够作为多模态文档检索和问答的推理骨干。在统一的评估框架下,仅改变策略模型,实验表明,在六个多模态文档场景和七个文本问答基准上,基于DocArena数据训练的智能体在检索准确率和问答质量上均取得了最佳性能。进一步的分析证实了该训练环境的有效性和可控性,尤其是在智能体搜索行为方面。这一创新为文档搜索智能体的发展提供了新的方向,有望推动相关领域的研究和应用。