2026-06-16站内改写1 分钟阅读更新: 2026-06-16

GRASP：梯度对齐的序列参数传递实现内存高效的多源学习

GRASP是一种新的多源迁移学习方法，通过顺序处理、参数梯度对齐和迭代微调，在保持O(1)内存消耗的同时实现了优于集成的准确性，适用于资源受限和动态源域场景。

来源arXiv Machine Learning作者: Mary Isabelle Wisell, Nicholas Jacobs, Aayush Manandhar, Salimeh Yasaei Sekeh

多源迁移学习（Multi-source transfer learning）旨在利用多个预训练源模型的知识来提升目标任务的性能。然而，现有方法面临严重的可扩展性瓶颈：传统的参数融合方法需要将所有K个源模型同时加载到内存中，导致内存开销为O(K)；而在推理时，部署所有模型也使得生产环境变得不可行。针对这一问题，来自研究团队的论文提出了GRASP（Gradient-Aligned Sequential Parameter Transfer），一种梯度对齐的序列参数传递方法，在保持O(1)内存消耗的同时实现了优越的知识集成。

GRASP的核心创新包括三点：第一，顺序处理，即每次只合并一个源模型到正在演化的目标模型中，从而避免了同时加载所有模型的需求；第二，参数级梯度对齐，通过选择那些优化方向与目标域一致的参数进行迁移，有效避免了负迁移现象；第三，迭代微调，在整合下一个源模型之前对已迁移的知识进行适应，确保知识的平滑融合。这种设计使得GRASP在融合任意数量源模型时，内存占用始终保持恒定，不会随源数量增长而增加。

研究团队在三个持续学习基准（Yearbook、CLEAR-10、CLEAR-100）上进行了广泛实验，这些数据集分别包含10到108年的时间分布偏移。实验采用了四种不同规模的架构，参数数量从1.3M到25.6M不等。结果表明，GRASP在所有数据集和架构上的平均准确率达到93.5%，而传统的集成方法仅为71.7%。更重要的是，GRASP能够顺序处理先前合并的模型，并扩展到任意数量的源而无需增加内存，这使其特别适合资源受限的部署环境以及源域持续演变的场景。

该成果已在arXiv上发布（arXiv:2606.14900），论文由Mary Isabelle Wisell等人共同撰写，属于机器学习领域。GRASP的提出为多源学习在实际应用中的高效部署提供了新的解决方案，尤其对于边缘设备或实时系统具有重要价值。这一方法不仅解决了内存瓶颈，还通过梯度对齐提升了迁移质量，为未来在动态多源环境下的机器学习研究奠定了基础。