AI News HubLIVE
站内改写1 分钟阅读

想要更好的合成数据?引导它:面向低资源语言生成的激活引导方法

本研究提出激活引导作为低资源语言合成数据生成的替代方案,通过语言引导和质量引导两种策略,在四个开源大语言模型和11种语言上验证了该方法能提升生成数据的多样性及下游任务性能,尤其在早期层进行引导效果最佳。

来源arXiv Computational Linguistics作者: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann

大语言模型(LLM)已成为合成数据生成的有效工具,特别是在低资源语言领域,生成的高质量数据能够显著提升下游任务(如情感分类、主题分类)的性能。然而,当前最先进的方法通常依赖目标语言的少样本提示(few-shot prompting),这不仅增加了推理成本,还可能因为词汇锚定(lexical anchoring)导致生成数据的多样性下降。为了解决这一问题,一篇发表于arXiv的新研究探索了激活引导(activation steering)作为一种替代方案。

该研究提出了两种引导策略:语言引导(Language Steering)和质量引导(Quality Steering)。语言引导通过调整模型的内部表示来强化特定语言的 linguistic 身份,从而确保生成文本符合目标语言的特性。质量引导则通过对比人工撰写的文本与回译(backtranslated)文本的表示,捕捉文本的规范性和流畅性。这两种策略可以单独或组合使用,以提升合成数据的质量。

研究团队在四个开源大语言模型(包括不同规模和架构)上进行了广泛评估,覆盖了11种类型多样的语言(包括高资源和低资源语言),并测试了多个 Transformer 层的引导效果。实验通过生成情感分类和主题分类数据集,并微调小型分类器来评估生成数据的质量。结果显示,在早期层(如第0层至第4层)进行引导,而非后期层,能够持续提升生成数据的多样性,并且通常能够带来更强的下游模型性能,尤其对低资源语言效果显著。

值得注意的是,激活引导在零样本(zero-shot)和少样本(few-shot)提示设置下均有效,并且与未引导的基线相比,在大多数情况下都表现出优势。这表明该方法具有通用性和实用性,能够在不显著增加计算开销的情况下,改善合成数据的生成。该研究为低资源语言的数据生成提供了新的视角,有望减少对人工标注数据的依赖,并推动多语言 NLP 的发展。