AI News HubLIVE
站内改写

在Amazon SageMaker AI上训练阿塞拜疆语语言模型

阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作,在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型,通过自定义分词器、分布式训练和Liger Kernel优化,实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。

文章情报

工程师进阶

要点

  • Azercell使用Amazon SageMaker AI为阿塞拜疆语开发了首个大语言模型生产框架。
  • 自定义分词器将每个词的令牌数从3.22降至1.59,效率提升2倍。
  • 通过FSDP和Liger Kernel优化,训练吞吐量提升23%,GPU内存占用降低58%。
  • 三阶段流程:分词器开发、持续预训练、带LoRA的监督微调。

为什么重要

这条新闻值得关注,因为Azercell使用Amazon SageMaker AI为阿塞拜疆语开发了首个大语言模型生产框架。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

阿塞拜疆领先的电信提供商Azercell Telecom LLC希望构建一个阿塞拜疆语大语言模型,用于电信用例和面向客户的聊天机器人。挑战在于将基础模型适应于形态丰富的语言,且训练数据有限,缺乏现成的阿塞拜疆语大模型训练蓝图。在为期六周的合作中,Azercell与AWS生成式AI创新中心在Amazon SageMaker AI上建立了一个生产就绪的框架。该框架通过内核级优化,在ml.p5.48xlarge实例上实现了23%的训练吞吐量提升和58%的峰值GPU内存降低。此外,自定义分词器将每个词的令牌数提高了2倍,有效使模型上下文窗口中能容纳的阿塞拜疆语文本量翻倍。

该框架实施三个顺序阶段,每个阶段产生供下一阶段使用的工件。阶段1:分词器开发——为阿塞拜疆语构建高效分词器。团队评估了三种方法:基线英语优化分词器、词汇扩展和自定义单语分词器。自定义单语分词器表现最佳,将每个词的令牌数相比基线减少了一半。阶段2:持续预训练——通过分布式训练和Liger Kernel优化,在Amazon SageMaker AI训练作业上将基础模型(Llama 3.2 1B)适应于阿塞拜疆语理解。阶段3:带低秩适应的监督微调——通过LoRA将预训练模型转换为对话助手。

在分词器开发中,团队训练了词汇量为10万的自定义分词器,使用字节级字节对编码算法。与基线分词器相比,自定义分词器在验证集上的每字节比特数达到0.5795,优于基线的0.6830,证明编码效率提升未牺牲模型质量。持续预训练阶段采用两阶段方法:先冻结模型骨干仅训练嵌入层,再解冻进行完整训练。在ml.p4d.24xlarge实例上使用FSDP和Liger Kernel,最大批次大小从DDP的2提升至14,训练吞吐量显著增加。监督微调使用LoRA,秩为64,α为28,仅训练约1%的参数。

该框架的模块化架构允许独立优化每个阶段。分词器改进惠及后续训练阶段,持续预训练配置可迁移至不同微调任务。训练作业按需启动EC2实例,任务完成后终止,用户仅需支付实际计算时间。该解决方案基于PyTorch、Hugging Face Transformers和Liger Kernel等开源工具构建。