AI News HubLIVE
站内改写1 分鐘閱讀

想要更好的合成資料?引導它:面向低資源語言生成的啟用引導方法

本研究提出啟用引導作為低資源語言合成資料生成的替代方案,透過語言引導和質量引導兩種策略,在四個開源大語言模型和11種語言上驗證了該方法能提升生成資料的多樣性及下游任務效能,尤其在早期層進行引導效果最佳。

來源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大語言模型(LLM)已成為合成資料生成的有效工具,特別是在低資源語言領域,生成的高質量資料能夠顯著提升下游任務(如情感分類、主題分類)的效能。然而,當前最先進的方法通常依賴目標語言的少樣本提示(few-shot prompting),這不僅增加了推理成本,還可能因為詞彙錨定(lexical anchoring)導致生成資料的多樣性下降。為了解決這一問題,一篇發表於arXiv的新研究探索了啟用引導(activation steering)作為一種替代方案。

該研究提出了兩種引導策略:語言引導(Language Steering)和質量引導(Quality Steering)。語言引導透過調整模型的內部表示來強化特定語言的 linguistic 身份,從而確保生成文本符合目標語言的特性。質量引導則透過對比人工撰寫的文本與回譯(backtranslated)文本的表示,捕捉文本的規範性和流暢性。這兩種策略可以單獨或組合使用,以提升合成資料的質量。

研究團隊在四個開源大語言模型(包括不同規模和架構)上進行了廣泛評估,覆蓋了11種型別多樣的語言(包括高資源和低資源語言),並測試了多個 Transformer 層的引導效果。實驗透過生成情感分類和主題分類資料集,並微調小型分類器來評估生成資料的質量。結果顯示,在早期層(如第0層至第4層)進行引導,而非後期層,能夠持續提升生成資料的多樣性,並且通常能夠帶來更強的下游模型效能,尤其對低資源語言效果顯著。

值得注意的是,啟用引導在零樣本(zero-shot)和少樣本(few-shot)提示設定下均有效,並且與未引導的基線相比,在大多數情況下都表現出優勢。這表明該方法具有通用性和實用性,能夠在不顯著增加計算開銷的情況下,改善合成資料的生成。該研究為低資源語言的資料生成提供了新的視角,有望減少對人工標註資料的依賴,並推動多語言 NLP 的發展。