2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

想要更好的合成資料？引導它：面向低資源語言生成的啟用引導方法

本研究提出啟用引導作為低資源語言合成資料生成的替代方案，透過語言引導和質量引導兩種策略，在四個開源大語言模型和11種語言上驗證了該方法能提升生成資料的多樣性及下游任務效能，尤其在早期層進行引導效果最佳。

來源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大語言模型（LLM）已成為合成資料生成的有效工具，特別是在低資源語言領域，生成的高質量資料能夠顯著提升下游任務（如情感分類、主題分類）的效能。然而，當前最先進的方法通常依賴目標語言的少樣本提示（few-shot prompting），這不僅增加了推理成本，還可能因為詞彙錨定（lexical anchoring）導致生成資料的多樣性下降。為了解決這一問題，一篇發表於arXiv的新研究探索了啟用引導（activation steering）作為一種替代方案。

該研究提出了兩種引導策略：語言引導（Language Steering）和質量引導（Quality Steering）。語言引導透過調整模型的內部表示來強化特定語言的 linguistic 身份，從而確保生成文本符合目標語言的特性。質量引導則透過對比人工撰寫的文本與回譯（backtranslated）文本的表示，捕捉文本的規範性和流暢性。這兩種策略可以單獨或組合使用，以提升合成資料的質量。

研究團隊在四個開源大語言模型（包括不同規模和架構）上進行了廣泛評估，覆蓋了11種型別多樣的語言（包括高資源和低資源語言），並測試了多個 Transformer 層的引導效果。實驗透過生成情感分類和主題分類資料集，並微調小型分類器來評估生成資料的質量。結果顯示，在早期層（如第0層至第4層）進行引導，而非後期層，能夠持續提升生成資料的多樣性，並且通常能夠帶來更強的下游模型效能，尤其對低資源語言效果顯著。

值得注意的是，啟用引導在零樣本（zero-shot）和少樣本（few-shot）提示設定下均有效，並且與未引導的基線相比，在大多數情況下都表現出優勢。這表明該方法具有通用性和實用性，能夠在不顯著增加計算開銷的情況下，改善合成資料的生成。該研究為低資源語言的資料生成提供了新的視角，有望減少對人工標註資料的依賴，並推動多語言 NLP 的發展。