2026-05-28 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

架構驅動的偏移：一種用於捕捉對數機率偏移趨勢的輕量級選擇器

本文提出了一種輕量級的架構驅動偏移（ADS）度量，用於在持續學習中高效選擇預訓練模型。ADS透過解耦對數機率偏移為架構依賴和資料依賴，僅需少量資料樣本即可捕捉偏移趨勢。實驗表明，ADS與對數機率偏移之間存在強單調相關性（斯皮爾曼相關係數最低0.731），並可作為預期校準誤差的有效代理，在六個場景、三個資料集上驗證了其可靠性。

來源arXiv Machine Learning作者: Zhong Ye, Yu Hu, Ruilin Tang

在持續學習（Continual Learning, CL）的研究中，如何有效地利用深度預訓練神經網路的能力是一個核心議題。然而，當模型需要適應新任務時，一個關鍵挑戰在於如何選擇那些能夠良好平衡“可塑性-穩定性”（Plasticity-Stability）的預訓練模型。現有的評估方法通常依賴於對數機率偏移（logit shift）這一自然代理指標，因為它直接反映了模型在CL場景中的適應程度。但是，精確計算對數機率偏移需要大量的計算資源，這在大規模模型選擇中成為了一個瓶頸。此外，現有的理論分析往往假設隱藏層寬度是均勻的，然而真實世界的神經網路架構往往具有各向異性的寬度和深度，這種假設的侷限性使得現有方法無法提供一個高效的替代方案。

針對這一問題，研究團隊提出了一個全新的框架——架構驅動偏移（Architecture-driven Shift, ADS）。該框架透過將對數機率偏移解耦為架構依賴和資料依賴兩個部分，揭示了這兩部分組合起來可以很好地捕捉對數機率偏移的趨勢，並且這種組合的計算僅需要少量資料樣本。具體來說，對於一個在先前任務上已經最佳化良好的模型，越高的ADS值意味著該模型在完成當前任務的訓練後會產生更大的對數機率偏移。這一結論基於三個機制元件：第一，權重矩陣梯度的譜範數會隨著層寬的變化而縮放；第二，新任務的最佳化路徑長度；第三，寬網路中的漸近任務衝突。這三個元件共同構成了ADS的理論基礎。

為了驗證ADS的有效性，研究者在超過175種不同的架構上進行了廣泛的實驗。結果表明，ADS與實際的的對數機率偏移之間存在非常強的單調相關性，其中最弱的斯皮爾曼相關係數也達到了0.731。更進一步，研究者發現ADS可以作為一種輕量級的代理，用來替代預期校準誤差（expected calibration error）這一在可靠CL模型選擇中廣泛使用的度量。該結論在三個資料集、六個不同的場景下得到了充分的驗證，充分證明了ADS的實用性和可靠性。

這項研究為持續學習中的模型選擇開闢了一條高效的新路徑。透過大幅降低計算開銷，ADS使得大規模預訓練模型的評估變得更加可行和便捷。未來的研究可以進一步探索ADS在更多樣化的場景以及更大規模模型中的應用潛力，從而推動持續學習領域的發展。