2026-05-29 05:54 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

在Amazon SageMaker AI上训练阿塞拜疆语语言模型

阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作，在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型，通过自定义分词器、分布式训练和Liger Kernel优化，实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。

来源AWS Machine Learning Blog作者: Aleksei Iancheruk

阿塞拜疆领先的电信提供商Azercell Telecom LLC希望构建一个阿塞拜疆语大语言模型，用于电信用例和面向客户的聊天机器人。挑战在于将基础模型适应于形态丰富的语言，且训练数据有限，缺乏现成的阿塞拜疆语大模型训练蓝图。在为期六周的合作中，Azercell与AWS生成式AI创新中心在Amazon SageMaker AI上建立了一个生产就绪的框架。该框架通过内核级优化，在ml.p5.48xlarge实例上实现了23%的训练吞吐量提升和58%的峰值GPU内存降低。此外，自定义分词器将每个词的令牌数提高了2倍，有效使模型上下文窗口中能容纳的阿塞拜疆语文本量翻倍。

该框架实施三个顺序阶段，每个阶段产生供下一阶段使用的工件。阶段1：分词器开发——为阿塞拜疆语构建高效分词器。团队评估了三种方法：基线英语优化分词器、词汇扩展和自定义单语分词器。自定义单语分词器表现最佳，将每个词的令牌数相比基线减少了一半。阶段2：持续预训练——通过分布式训练和Liger Kernel优化，在Amazon SageMaker AI训练作业上将基础模型（Llama 3.2 1B）适应于阿塞拜疆语理解。阶段3：带低秩适应的监督微调——通过LoRA将预训练模型转换为对话助手。

在分词器开发中，团队训练了词汇量为10万的自定义分词器，使用字节级字节对编码算法。与基线分词器相比，自定义分词器在验证集上的每字节比特数达到0.5795，优于基线的0.6830，证明编码效率提升未牺牲模型质量。持续预训练阶段采用两阶段方法：先冻结模型骨干仅训练嵌入层，再解冻进行完整训练。在ml.p4d.24xlarge实例上使用FSDP和Liger Kernel，最大批次大小从DDP的2提升至14，训练吞吐量显著增加。监督微调使用LoRA，秩为64，α为28，仅训练约1%的参数。

该框架的模块化架构允许独立优化每个阶段。分词器改进惠及后续训练阶段，持续预训练配置可迁移至不同微调任务。训练作业按需启动EC2实例，任务完成后终止，用户仅需支付实际计算时间。该解决方案基于PyTorch、Hugging Face Transformers和Liger Kernel等开源工具构建。