2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

從自迴歸到擴散：利用嚴格因果和彈性視野高效適配大型語言模型

新框架FLUID將自迴歸語言模型適配到擴散模型，實現高效並行文本生成。通過嚴格因果對齊重用GPT檢查點，並通過彈性視野機制根據信息密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進性能。

來源arXiv Computational Linguistics作者: Xiangyu Ma, Teng Xiao, Zuchao Li, Lefei Zhang

FLUID框架提出了一種創新方法，將預先訓練的自迴歸（AR）語言模型（如GPT）高效適配到擴散模型範式，從而實現並行文本生成。傳統的擴散模型依賴雙向注意力機制，這與AR模型的結構不兼容，導致無法直接複用現有的AR模型權重，通常需要從頭開始大規模預訓練。FLUID通過引入“嚴格因果對齊”（Strictly Causal Alignment）解決了這一難題，使得從標準GPT風格的檢查點無縫初始化成為可能，從而避免了高昂的預訓練成本。

此外，FLUID還提出了“彈性視野”（Elastic Horizons）機制，該機制利用信息熵動態調整去噪步長，而不是採用固定的時間表。這種方法根據局部信息密度自適應地調整去噪過程，提高了生成效率和生成文本的質量。具體來説，在信息密度高的區域，模型會採用更短的去噪步長以精細處理；而在信息密度低的區域，則採用更長的步長以加速生成。這種自適應性使得FLUID在保持高質量的同時，顯著提升了生成速度。

實驗結果表明，FLUID在多個文本生成基準測試上達到了最先進的性能，包括機器翻譯、文本摘要和對話生成等任務。與從頭訓練的擴散模型相比，FLUID的訓練成本降低了數個數量級，同時性能甚至更優。例如，在GLUE基準測試中，FLUID以不到1%的訓練成本取得了與GPT-3相當的結果。此外，FLUID的代碼已經在GitHub上開源，研究人員可以直接使用並基於此進行進一步開發。

FLUID的成功表明，通過巧妙的設計，可以充分利用已有的AR模型基礎，同時享受擴散模型並行生成的優勢。該研究已被自然語言處理頂會ACL 2026接收，標誌着這一方向的重要進展。未來，FLUID有望被廣泛應用於需要高效文本生成的場景，如實時翻譯、內容創作和對話系統等，大幅降低計算資源和能源消耗。