關注殘差差距:現實世界偏差下的機率降尺度
機率降尺度是大氣科學和氣候建模中的關鍵任務,通常採用均值-殘差框架。然而,該方法在現實應用中常產生有偏和欠分散的集合。研究表明,根本原因是殘差目標指定錯誤:訓練時的殘差分佈與測試時因降尺度偏差而需要的分佈系統性地不同。為此,提出ReMatch(殘差分佈匹配),透過低維PCA空間中的最優傳輸對齊訓練殘差分佈至測試狀態。在合成基準和真實HRRR-ERA5風場降尺度任務上,ReMatch顯著減少了欠分散,改進了校準,並優於多種強基線。
機率降尺度是大氣科學和氣候建模中的一個核心挑戰,其目標是根據粗解析度輸入模擬高解析度場的條件分佈。一種廣泛使用的正規化是將問題分解為確定性均值預測器與隨機殘差生成器。雖然這一均值-殘差方法在理想化場景中表現良好,但在現實應用中常常產生有偏和欠分散的集合,即集合的變異性不足以捕捉真實的不確定性。這一問題是否僅僅源於通用的預測不確定性校準失誤?在最近的一項研究中,研究人員揭示了更根本的原因:殘差目標指定錯誤(residual target misspecification)。具體來說,由於降尺度過程中固有的偏差,訓練階段誘匯出的殘差分佈與測試階段所需的殘差分佈存在系統性差異。
為了解決這一差距,研究者提出了ReMatch(Residual Distribution Matching,殘差分佈匹配)。ReMatch的核心思想是透過低維主成分分析(PCA)空間中的最優傳輸(optimal transport)技術,將訓練殘差分佈對齊到測試狀態下的分佈。這種方法保留了均值-殘差框架的統計優勢,同時減少了隨機生成器所看到的殘差目標在訓練與測試之間的不匹配。
在實驗中,研究團隊首先在可控的合成基準上測試,設定不同水平的偏差,然後在真實的HRRR-ERA5風場降尺度任務上進行驗證。結果表明,ReMatch顯著降低了模型的欠分散程度,改進了集合的校準效能(透過標準差比SSR和連續排名機率評分CRPS衡量),並且超越了多個強基線模型,包括標準均值-殘差模型及其變體,以及最先進的超解析度模型。該研究的程式碼已公開在GitHub上,為後續研究提供了可復現的基礎。