GRASP:梯度对齐的序列参数传递实现内存高效的多源学习
GRASP是一种新的多源迁移学习方法,通过顺序处理、参数梯度对齐和迭代微调,在保持O(1)内存消耗的同时实现了优于集成的准确性,适用于资源受限和动态源域场景。
多源迁移学习(Multi-source transfer learning)旨在利用多个预训练源模型的知识来提升目标任务的性能。然而,现有方法面临严重的可扩展性瓶颈:传统的参数融合方法需要将所有K个源模型同时加载到内存中,导致内存开销为O(K);而在推理时,部署所有模型也使得生产环境变得不可行。针对这一问题,来自研究团队的论文提出了GRASP(Gradient-Aligned Sequential Parameter Transfer),一种梯度对齐的序列参数传递方法,在保持O(1)内存消耗的同时实现了优越的知识集成。
GRASP的核心创新包括三点:第一,顺序处理,即每次只合并一个源模型到正在演化的目标模型中,从而避免了同时加载所有模型的需求;第二,参数级梯度对齐,通过选择那些优化方向与目标域一致的参数进行迁移,有效避免了负迁移现象;第三,迭代微调,在整合下一个源模型之前对已迁移的知识进行适应,确保知识的平滑融合。这种设计使得GRASP在融合任意数量源模型时,内存占用始终保持恒定,不会随源数量增长而增加。
研究团队在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100)上进行了广泛实验,这些数据集分别包含10到108年的时间分布偏移。实验采用了四种不同规模的架构,参数数量从1.3M到25.6M不等。结果表明,GRASP在所有数据集和架构上的平均准确率达到93.5%,而传统的集成方法仅为71.7%。更重要的是,GRASP能够顺序处理先前合并的模型,并扩展到任意数量的源而无需增加内存,这使其特别适合资源受限的部署环境以及源域持续演变的场景。
该成果已在arXiv上发布(arXiv:2606.14900),论文由Mary Isabelle Wisell等人共同撰写,属于机器学习领域。GRASP的提出为多源学习在实际应用中的高效部署提供了新的解决方案,尤其对于边缘设备或实时系统具有重要价值。这一方法不仅解决了内存瓶颈,还通过梯度对齐提升了迁移质量,为未来在动态多源环境下的机器学习研究奠定了基础。