AI News HubLIVE
站内改写1 分鐘閱讀

簡化自然語言中任意條件建模的方法

因果Transformer在自迴歸分解下能高效處理從左到右的序列,但難以處理任意條件(如同時依賴過去和未來標記的文本塊)。新提出的AC-GPT通過簡單修改標準因果Transformer,在單次前向傳播中實現對任意條件(包括過去、未來和混合上下文)的評估與採樣,同時保持從左到右的順序和下一個標記預測目標,兼容現有LLM微調。實驗表明該方法在建模任意條件上優於基線,且不降低標準從左到右性能。

來源arXiv Computational Linguistics作者: Yinhan Lu, Eric Elmoznino, L\'eo Gagnon, Sarthak Mittal, Tejas Kasetty, Guillaume Lajoie

因果Transformer(Causal Transformer)通過自迴歸分解對序列進行建模,這使得從左到右的解碼和條件似然計算非常高效。然而,這類模型無法對任意條件進行易於處理的採樣或評估——例如,給定一段同時依賴過去和未來標記的文本塊。近年來,研究人員嘗試通過新穎的架構來解決這一問題,但這些方法往往導致對這類條件的建模效果不佳,並且生成的文本質量下降。

針對這一挑戰,研究者提出了Arbitrary Conditionals GPT(AC-GPT)。該方法對標準因果Transformer進行了簡單而巧妙的修改,從而能夠在單次前向傳播中評估和採樣任意條件——包括僅依賴過去的條件、僅依賴未來的條件以及混合上下文條件。與以往的方法不同,AC-GPT保留了標準的從左到右順序和下一個標記預測目標,這兩者對於在自然語言上實現強大的性能和高效的訓練至關重要。關鍵是,這種兼容性使得現有的LLM能夠針對任意條件進行微調,無需重新訓練整個模型。

實驗結果表明,AC-GPT在建模任意條件方面優於基線方法,同時沒有降低標準的從左到右性能。這意味着該方法在擴展能力的同時保持了原有優勢。AC-GPT的提出為在保留因果Transformer優勢的基礎上擴展其能力提供了新思路,有望推動語言模型在更復雜的條件場景中的應用,例如文本填充、糾錯和交互式生成等。此外,該方法的簡單性和兼容性也使其易於在實際系統中部署。

研究者還指出,AC-GPT不僅適用於文本,還有潛力推廣到其他序列建模任務,如代碼生成和生物序列分析。未來的工作可以探索更高效的條件採樣策略以及在大規模模型上的應用。總的來説,AC-GPT通過對標準架構的微小改動,實現了條件建模能力的重大進步。