2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

想要更好的合成數據？引導它：面向低資源語言生成的激活引導方法

本研究提出激活引導作為低資源語言合成數據生成的替代方案，通過語言引導和質量引導兩種策略，在四個開源大語言模型和11種語言上驗證了該方法能提升生成數據的多樣性及下游任務性能，尤其在早期層進行引導效果最佳。

來源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大語言模型（LLM）已成為合成數據生成的有效工具，特別是在低資源語言領域，生成的高質量數據能夠顯著提升下游任務（如情感分類、主題分類）的性能。然而，當前最先進的方法通常依賴目標語言的少樣本提示（few-shot prompting），這不僅增加了推理成本，還可能因為詞彙錨定（lexical anchoring）導致生成數據的多樣性下降。為了解決這一問題，一篇發表於arXiv的新研究探索了激活引導（activation steering）作為一種替代方案。

該研究提出了兩種引導策略：語言引導（Language Steering）和質量引導（Quality Steering）。語言引導通過調整模型的內部表示來強化特定語言的 linguistic 身份，從而確保生成文本符合目標語言的特性。質量引導則通過對比人工撰寫的文本與回譯（backtranslated）文本的表示，捕捉文本的規範性和流暢性。這兩種策略可以單獨或組合使用，以提升合成數據的質量。

研究團隊在四個開源大語言模型（包括不同規模和架構）上進行了廣泛評估，覆蓋了11種類型多樣的語言（包括高資源和低資源語言），並測試了多個 Transformer 層的引導效果。實驗通過生成情感分類和主題分類數據集，並微調小型分類器來評估生成數據的質量。結果顯示，在早期層（如第0層至第4層）進行引導，而非後期層，能夠持續提升生成數據的多樣性，並且通常能夠帶來更強的下游模型性能，尤其對低資源語言效果顯著。

值得注意的是，激活引導在零樣本（zero-shot）和少樣本（few-shot）提示設置下均有效，並且與未引導的基線相比，在大多數情況下都表現出優勢。這表明該方法具有通用性和實用性，能夠在不顯著增加計算開銷的情況下，改善合成數據的生成。該研究為低資源語言的數據生成提供了新的視角，有望減少對人工標註數據的依賴，並推動多語言 NLP 的發展。