何时信任,如何蒸馏:多基础模型指导实现轻量级鲁棒科学时间序列预测
本文提出Gated Uncertainty-Aware Routing for Distillation (Guard)框架,解决时间序列基础模型在科学应用中由于分布偏移和计算成本高的问题。通过上下文路由器和不确定性门控温度机制,从多个预训练模型中提取知识,训练轻量级预测器,在气象学、生态系统碳通量、土壤湿度和能源网格等气候关键领域显著降低RMSE。
在物理科学领域部署时间序列基础模型(TSFMs)面临一个关键权衡:这些模型虽然编码了丰富且通用的时间动态,但在零样本应用于特定科学领域时会出现严重的分布偏移,同时其计算成本阻碍了在边缘计算传感器网络中的部署。该论文投稿于2026年6月10日,已被KDD 2026会议接收,属于AI for Science方向。针对这一挑战,研究人员提出了一种新颖的框架——门控不确定性感知路由蒸馏(Guard),旨在从多个分布不匹配的基础模型中提取潜在结构知识,训练轻量级专用预测器。
Guard框架将多教师蒸馏重新定义为实例级决策过程,包含两个自适应机制:上下文路由器根据局部输入统计动态选择最相关的教师,利用不同基础模型之间的互补性;不确定性门控温度机制则像一个断路器,当教师置信度与领域实际情况偏差较大时自动减弱蒸馏强度。该方法在四个气候关键领域——气象学、生态系统碳通量、土壤湿度和能源网格——进行了评估。
实验结果显示,相对于固定权重的多教师蒸馏基线,Guard显著降低了均方根误差(RMSE)。即使预训练教师由于原始数据和目标数据域之间的分布偏移而表现出次优的零样本精度,Guard仍能成功蒸馏知识。更有趣的是,这些领域不匹配的教师可以成为关键的修正因素,在28.5%的最难实例上表现优于全局最优的基础模型。
最终,Guard使得高精度科学预测能够适用于资源受限的边缘部署场景,为在传感器网络上实现高效、鲁棒的时间序列预测提供了可行方案。相关代码已在GitHub上开源。