字节跳动研究发现:用提问训练多模态模型比要求其转录文本更有效
字节跳动Seed与香港科技大学的研究表明,通过问答对训练多模态模型处理长文档,比使用字符识别任务效果更好。他们开发的MMProLong模型基于Qwen2.5-VL,在长达512,000 token的输入上保持稳定,性能超越InternVL3-38B等更大模型。研究还发现,训练数据长度多样性比专注超长文本更重要,且短示例并非必须。
文章情报
要点
- 问答训练显著提升长文档性能,而纯文本识别反而有害。
- MMProLong仅用128k token训练就能稳定处理512k token输入。
- 长度多样性优于专注超长文本,短示例并非必需。
- 模型能力可迁移至长视频理解等未训练任务。
为什么重要
这条新闻值得关注,因为问答训练显著提升长文档性能,而纯文本识别反而有害。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
多模态AI模型本应处理越来越长的文档,但它们的训练方法通常属于商业机密。一项新研究表明,将字符识别作为训练任务实际上会损害性能,而问答对则有效得多。
来自字节跳动Seed和香港科技大学(HKUST)的研究人员探索了如何高效训练图像语言模型处理长文档。其成果MMProLong基于阿里巴巴开源的Qwen2.5-VL构建,在多项基准测试中击败了更大的竞争对手。
现代多模态AI模型需要处理越来越长的输入:整个PDF页面集合、数小时的视频、或跨步骤记忆任务的智能体。OpenAI、Google、阿里巴巴等AI实验室宣称上下文窗口可达100万token,不仅能容纳文本,还能容纳数千张页面图像或视频帧。但作者指出,技术报告几乎没有透露模型应该看到什么数据以及如何混合。
研究的关键发现是:对于多模态模型学习在100页文档中定位正确信息,转录每页文本几乎无帮助。更有效的方法是提出答案隐藏在那些页面中的问题。研究人员直接对比了两种方法:一种让模型对所有页面或部分选定页面进行文本识别,其余页面作为干扰;另一种使用单独的模型(字节跳动的Seed 2.0)为文档各段落生成问答对,然后将问题连同整个文档一起训练,迫使模型在长上下文中定位相关段落。
实验结果显示,纯文本识别作为训练任务实际上比起点更差,而问答训练带来了明显提升。模型只有在需要以特定目标筛选和分类信息时,才能学会导航长文本。
此外,研究还有三个发现:首先,主要喂给模型超长文档并不值得,长短混合更可靠;长上下文能力并非绑定特定长度,而是需要跨不同距离灵活搜索。其次,真正的瓶颈是寻找相关段落而非推理,因此偏向提取任务并混合少量计算任务能获得最佳结果。第三,令人惊讶的是,训练中并不需要短的示例:模型即使只接受长问答数据训练,也能保持短任务能力。数据格式本身可能起了作用:即使上下文很长,任务仍以熟悉的指令遵循格式呈现为问答交互。
凭借这套方法和适度的训练预算,MMProLong击败了InternVL3-38B和Gemma3-27B等更大的开源模型。该模型仅在128k token上训练,但在256k和512k输入长度时仍保持稳定,而原始模型在这些范围急剧崩溃。这种能力还迁移到模型从未专门训练的任务上,如理解长视频。在额外的迁移实验中,该配方在更强的Qwen3-VL-8B上也有效。
这项研究也值得关注,因为它与DeepSeek在该问题上的广泛研究来自完全不同的路线:DeepSeek试图通过将文本作为图像处理并大幅压缩来扩展AI模型的长记忆,而字节跳动Seed则采取相反方法——优化训练数据而非架构。