2026-06-18站内改写1 分钟阅读更新: 2026-06-18

想要更好的合成数据？引导它：面向低资源语言生成的激活引导方法

本研究提出激活引导作为低资源语言合成数据生成的替代方案，通过语言引导和质量引导两种策略，在四个开源大语言模型和11种语言上验证了该方法能提升生成数据的多样性及下游任务性能，尤其在早期层进行引导效果最佳。

来源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大语言模型（LLM）已成为合成数据生成的有效工具，特别是在低资源语言领域，生成的高质量数据能够显著提升下游任务（如情感分类、主题分类）的性能。然而，当前最先进的方法通常依赖目标语言的少样本提示（few-shot prompting），这不仅增加了推理成本，还可能因为词汇锚定（lexical anchoring）导致生成数据的多样性下降。为了解决这一问题，一篇发表于arXiv的新研究探索了激活引导（activation steering）作为一种替代方案。

该研究提出了两种引导策略：语言引导（Language Steering）和质量引导（Quality Steering）。语言引导通过调整模型的内部表示来强化特定语言的 linguistic 身份，从而确保生成文本符合目标语言的特性。质量引导则通过对比人工撰写的文本与回译（backtranslated）文本的表示，捕捉文本的规范性和流畅性。这两种策略可以单独或组合使用，以提升合成数据的质量。

研究团队在四个开源大语言模型（包括不同规模和架构）上进行了广泛评估，覆盖了11种类型多样的语言（包括高资源和低资源语言），并测试了多个 Transformer 层的引导效果。实验通过生成情感分类和主题分类数据集，并微调小型分类器来评估生成数据的质量。结果显示，在早期层（如第0层至第4层）进行引导，而非后期层，能够持续提升生成数据的多样性，并且通常能够带来更强的下游模型性能，尤其对低资源语言效果显著。

值得注意的是，激活引导在零样本（zero-shot）和少样本（few-shot）提示设置下均有效，并且与未引导的基线相比，在大多数情况下都表现出优势。这表明该方法具有通用性和实用性，能够在不显著增加计算开销的情况下，改善合成数据的生成。该研究为低资源语言的数据生成提供了新的视角，有望减少对人工标注数据的依赖，并推动多语言 NLP 的发展。