2026-06-12站内改写2 分钟阅读更新: 2026-06-12

ECA：面向开放图像到文本生成的高效持续对齐方法

本文提出高效持续对齐（ECA）方法，用于开放图像到文本生成中的增量学习。通过引入持续对齐概念和三个核心机制（查询混合模块、费舍尔动态扩展、字典回放），ECA在不依赖旧数据的情况下有效缓解灾难性遗忘，并在新基准上取得优异性能。

来源arXiv Computer Vision作者: Jiangtao Kong, Peijun Zhao, Chun-Fu Chen, Youngwook Do, Shaohan Hu, Tianyi Zhou, Huajie Shao

近年来，开放图像到文本生成（OpenITG）任务受到广泛关注，但现有模型通常假设训练数据静态不变，难以适应实际应用中数据分布随时间动态变化的场景。为此，来自多个机构的研究者提出了一种名为高效持续对齐（ECA）的增量学习方法，旨在使模型在连续学习新图像类别的同时，不遗忘已掌握的知识。该工作已被国际机器学习大会（ICML 2026）接收。

研究团队指出，传统增量学习在OpenITG中面临的关键挑战是：模型在吸收新任务特定特征时，如何最小化对已有跨模态对齐表示的干扰，且不能访问旧任务的原始数据。为解决这一问题，ECA引入了“持续对齐”的新概念，即逐步调整预训练视觉语言模型（VLM）中的对齐模块，以保持高质量的跨模态表征。

ECA框架包含三项核心机制：首先，混合查询模块（MoQ）通过可学习的任务特定查询令牌，使模型能够灵活适应不同任务的需求；其次，基于费舍尔信息矩阵的动态扩展机制（FeDEx）根据参数重要性动态扩展模型结构，避免对关键参数的覆盖；最后，嵌入字典配合字典回放（DR）策略，将旧任务的特征嵌入存储于字典中，在训练新任务时进行回放，从而有效保留历史知识。

为了验证ECA的有效性，研究团队构建了四个新的增量学习基准测试，更贴近真实场景。实验结果显示，ECA在缓解灾难性遗忘方面显著优于现有基线方法，同时提升了增量学习的整体性能。代码和基准数据已开源，供社区使用和进一步研究。

这项工作的意义在于，它为开放图像到文本生成领域的增量学习提供了一种高效且无需样本存储的解决方案，有望推动模型在动态环境中的持续学习和应用。开放图像到文本生成是一种重要的多模态任务，要求模型能够根据图像生成描述性文本。在现实世界中，新的图像类别不断出现，模型需要持续学习而不会遗忘之前学过的知识。ECA通过持续对齐的方式，在不访问旧数据的前提下，有效解决了灾难性遗忘问题。其核心创新包括混合查询模块（MoQ）允许模型为每个任务学习专门的查询令牌，从而提取任务特定的特征；费舍尔动态扩展（FeDEx）利用费舍尔信息矩阵评估参数重要性，并动态扩展模型容量；字典回放（DR）通过存储和重放旧任务的特征嵌入来巩固记忆。在四个新构建的基准测试上，ECA在多个指标上均取得了最佳性能，显著超过了现有方法。该研究为在线学习场景下的多模态模型提供了新的思路，具有重要的理论价值和实践前景。