AI News HubLIVE
站内改写1 分鐘閱讀

想要更好的合成數據?引導它:面向低資源語言生成的激活引導方法

本研究提出激活引導作為低資源語言合成數據生成的替代方案,通過語言引導和質量引導兩種策略,在四個開源大語言模型和11種語言上驗證了該方法能提升生成數據的多樣性及下游任務性能,尤其在早期層進行引導效果最佳。

來源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大語言模型(LLM)已成為合成數據生成的有效工具,特別是在低資源語言領域,生成的高質量數據能夠顯著提升下游任務(如情感分類、主題分類)的性能。然而,當前最先進的方法通常依賴目標語言的少樣本提示(few-shot prompting),這不僅增加了推理成本,還可能因為詞彙錨定(lexical anchoring)導致生成數據的多樣性下降。為了解決這一問題,一篇發表於arXiv的新研究探索了激活引導(activation steering)作為一種替代方案。

該研究提出了兩種引導策略:語言引導(Language Steering)和質量引導(Quality Steering)。語言引導通過調整模型的內部表示來強化特定語言的 linguistic 身份,從而確保生成文本符合目標語言的特性。質量引導則通過對比人工撰寫的文本與回譯(backtranslated)文本的表示,捕捉文本的規範性和流暢性。這兩種策略可以單獨或組合使用,以提升合成數據的質量。

研究團隊在四個開源大語言模型(包括不同規模和架構)上進行了廣泛評估,覆蓋了11種類型多樣的語言(包括高資源和低資源語言),並測試了多個 Transformer 層的引導效果。實驗通過生成情感分類和主題分類數據集,並微調小型分類器來評估生成數據的質量。結果顯示,在早期層(如第0層至第4層)進行引導,而非後期層,能夠持續提升生成數據的多樣性,並且通常能夠帶來更強的下游模型性能,尤其對低資源語言效果顯著。

值得注意的是,激活引導在零樣本(zero-shot)和少樣本(few-shot)提示設置下均有效,並且與未引導的基線相比,在大多數情況下都表現出優勢。這表明該方法具有通用性和實用性,能夠在不顯著增加計算開銷的情況下,改善合成數據的生成。該研究為低資源語言的數據生成提供了新的視角,有望減少對人工標註數據的依賴,並推動多語言 NLP 的發展。