2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:01 UTC+8

為什麼少步文本潛在變量會失敗而圖像潛在變量有效？在尖鋭分類讀出中的非承諾性

該研究揭示了確定性少步生成在連續圖像潛在變量上成功，但在連續文本潛在變量上失敗的根本原因：幾何限制而非訓練或規模問題。平滑的確定性映射無法在尖鋭的分類讀出前解決離散分支選擇，因此失敗由解碼器尖鋭度決定，而非傳輸精度。論文提出了兩個診斷指標DABI和CCI，並證明了兩種逃逸機制：分類承諾和隨機再注入。

來源arXiv Machine Learning作者: Zhongyao Wang

近年來，少步生成模型在圖像生成領域取得了顯著成功，但同樣的方法應用於文本生成時卻遭遇失敗。一篇由Zhongyao Wang提交的新論文（arXiv:2606.30705）揭示了這一現象的根本原因：幾何限制而非訓練或規模問題。

論文指出，確定性少步生成在連續圖像潛在變量上表現良好，但在連續文本潛在變量上生成的文本卻雜亂無章。關鍵在於，平滑且受正則性限制的確定性映射無法在尖鋭的分類讀出前解決離散分支選擇問題。也就是説，失敗是由解碼器的尖鋭度決定的，而非傳輸精度。

為了量化這一現象，作者提出了兩個診斷指標：讀出尖鋭度（DABI）和分類承諾度（CCI）。實驗測量顯示，四個獨立構建的連續文本解碼器的DABI值在5×10²到10⁵以上，而圖像解碼器的DABI值接近1。這意味着文本解碼器對邊界對齊的擾動高度敏感，而圖像解碼器則不然。

論文還探討了兩種可以繞過這種連續極限的機制：一是分類承諾，即使用自迴歸解碼器即使讀出更尖鋭也能成功；二是隨機再注入，例如在相同模型上，確定性ODE在K=4時困惑度（PPL）為294，而SDE僅為50，顯示出隨機性的優勢。

在理論層面，論文建立了匹配的尖鋭傳輸定律，包括維度相圖：分離M個模式所需的確定性剛度隨潛在維度的對數平方根增長，而在固定維度下則隨M的1/n次方增長。分層結構（深度B）可使每步峯值降低√B倍。這些結果共同揭示了一個精度-深度-剛度權衡：在確定性連續類別內成本不可降低，而兩種逃逸機制則超出了這一類別。

該論文為理解少步生成模型在文本領域的侷限性提供了深刻見解，併為未來設計更有效的文本生成方法指明瞭方向。此外，論文還討論了實際應用中的影響，例如在文本生成任務中，若採用連續潛在變量，則必須引入隨機性或自迴歸解碼器才能保證生成質量。這一發現對於當前流行的擴散模型和流匹配模型具有重要指導意義。