2026-05-24 21:28 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

字节跳动研究发现：用提问训练多模态模型比要求其转录文本更有效

字节跳动Seed与香港科技大学的研究表明，通过问答对训练多模态模型处理长文档，比使用字符识别任务效果更好。他们开发的MMProLong模型基于Qwen2.5-VL，在长达512,000 token的输入上保持稳定，性能超越InternVL3-38B等更大模型。研究还发现，训练数据长度多样性比专注超长文本更重要，且短示例并非必须。

来源The Decoder作者: Jonathan Kemper

多模态AI模型本应处理越来越长的文档，但它们的训练方法通常属于商业机密。一项新研究表明，将字符识别作为训练任务实际上会损害性能，而问答对则有效得多。

来自字节跳动Seed和香港科技大学（HKUST）的研究人员探索了如何高效训练图像语言模型处理长文档。其成果MMProLong基于阿里巴巴开源的Qwen2.5-VL构建，在多项基准测试中击败了更大的竞争对手。

现代多模态AI模型需要处理越来越长的输入：整个PDF页面集合、数小时的视频、或跨步骤记忆任务的智能体。OpenAI、Google、阿里巴巴等AI实验室宣称上下文窗口可达100万token，不仅能容纳文本，还能容纳数千张页面图像或视频帧。但作者指出，技术报告几乎没有透露模型应该看到什么数据以及如何混合。

研究的关键发现是：对于多模态模型学习在100页文档中定位正确信息，转录每页文本几乎无帮助。更有效的方法是提出答案隐藏在那些页面中的问题。研究人员直接对比了两种方法：一种让模型对所有页面或部分选定页面进行文本识别，其余页面作为干扰；另一种使用单独的模型（字节跳动的Seed 2.0）为文档各段落生成问答对，然后将问题连同整个文档一起训练，迫使模型在长上下文中定位相关段落。

实验结果显示，纯文本识别作为训练任务实际上比起点更差，而问答训练带来了明显提升。模型只有在需要以特定目标筛选和分类信息时，才能学会导航长文本。

此外，研究还有三个发现：首先，主要喂给模型超长文档并不值得，长短混合更可靠；长上下文能力并非绑定特定长度，而是需要跨不同距离灵活搜索。其次，真正的瓶颈是寻找相关段落而非推理，因此偏向提取任务并混合少量计算任务能获得最佳结果。第三，令人惊讶的是，训练中并不需要短的示例：模型即使只接受长问答数据训练，也能保持短任务能力。数据格式本身可能起了作用：即使上下文很长，任务仍以熟悉的指令遵循格式呈现为问答交互。

凭借这套方法和适度的训练预算，MMProLong击败了InternVL3-38B和Gemma3-27B等更大的开源模型。该模型仅在128k token上训练，但在256k和512k输入长度时仍保持稳定，而原始模型在这些范围急剧崩溃。这种能力还迁移到模型从未专门训练的任务上，如理解长视频。在额外的迁移实验中，该配方在更强的Qwen3-VL-8B上也有效。

这项研究也值得关注，因为它与DeepSeek在该问题上的广泛研究来自完全不同的路线：DeepSeek试图通过将文本作为图像处理并大幅压缩来扩展AI模型的长记忆，而字节跳动Seed则采取相反方法——优化训练数据而非架构。