2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:05 UTC+8

DocArena：将原始文档转化为可控的训练环境，用于文档搜索智能体

DocArena是一个全自动数据整理流水线，利用多模态大语言模型（MLLM）将原始文档转化为可控、可扩展的训练环境，用于训练文档搜索智能体。它无需人工标注，可生成推理密集的问答对，并构建包含8,336篇文档、覆盖16个领域和49种语言的DocArena-79K数据集。实验表明，基于DocArena训练的智能体在检索准确率和问答质量上均达到最优。

来源arXiv Computer Vision作者: Jiamian Wang, Ruiyi Zhang, Tong Yu, Jing Shi, Samyadeep Basu, Rajiv Jain, Zhiqiang Tao, Tong Sun

近日，一篇发表于arXiv的论文提出了DocArena，一种全自动数据整理流水线，旨在将原始文档转化为可控、可扩展的训练环境，用于训练文档搜索智能体。该研究由Jiamian Wang等8位作者完成，论文编号为2606.26122，于2026年5月27日提交。

传统的搜索智能体训练方法通常依赖强化学习，从（问题、答案、证据）三元组中学习，无需专家轨迹。这些三元组构成了训练环境，其属性直接影响智能体能够发展的搜索策略和泛化能力。尽管先前的工作在提高训练数据质量方面取得了进展，但现有环境仍以文本为主，难以实现可控性、可扩展性，且无法处理多模态数据。DocArena正是为解决这些局限性而设计。

该流水线首先通过基于多模态大语言模型（MLLM）的视觉感知对文档进行结构化和索引。然后分析跨页面的信息分布，以构建推理密集的问答对。最后，通过MLLM执行级联质量保证操作，确保数据质量。整个过程无需任何人工标注，完全自动化。基于此，研究团队推出了DocArena-79K数据集，包含来自8,336篇文档的问答对，覆盖16个领域和49种语言。

此外，他们还设计了一种Doc-Search智能体架构，将视觉感知与策略模型解耦，使得基于文本的大语言模型（LLM）能够作为多模态文档检索和问答的推理骨干。在统一的评估框架下，仅改变策略模型，实验表明，在六个多模态文档场景和七个文本问答基准上，基于DocArena数据训练的智能体在检索准确率和问答质量上均取得了最佳性能。进一步的分析证实了该训练环境的有效性和可控性，尤其是在智能体搜索行为方面。这一创新为文档搜索智能体的发展提供了新的方向，有望推动相关领域的研究和应用。