RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型
本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。
文章情报
要点
- 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
- 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
- COPA-ar上与Falcon-H1-1.5B持平(58.4%),但参数量仅为后者的1/3;达到SILMA-9B性能的67%,参数量仅为1/18。
- 量化至398 MB(q4_k_m),在单块H100上以batch size 1实现635 tokens/s的推理速度,适合边缘部署。
为什么重要
这条新闻值得关注,因为基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,来自RightNow AI的研究团队发布了RightNow-Arabic-0.5B-Turbo,这是一个专为阿拉伯语优化的开源大型语言模型,参数量仅518M。该模型基于Qwen2.5-0.5B构建,通过创新的词汇注入技术,在原有词表中新增了27,032个阿拉伯语token,显著提升了对阿拉伯语的理解和生成能力。
训练过程包括在504M阿拉伯语token上进行持续预训练,采用FSDP、FlashAttention varlen packing和Liger fused kernel等高效技术,随后在129,116对阿拉伯语指令数据上进行监督微调,并结合6,750对偏好数据进行直接偏好优化(DPO)。最后,通过权重汤(weight soup)方法合并三个检查点,进一步提升了模型性能。
在阿拉伯语基准测试中,该模型在COPA-ar、Arabic HellaSwag和ArabicMMLU上取得了35.9%的平均准确率,超越了所有同参数量级的开源模型。值得关注的是,在COPA-ar任务上,它以1/3的参数量达到了与Falcon-H1-1.5B相同的58.4%准确率,并以1/18的参数量实现了SILMA-9B模型67%的性能。
该模型特别注重边缘部署能力。通过量化(q4_k_m),模型大小压缩至398 MB,在单块NVIDIA H100 GPU上以batch size 1运行时,推理速度可达635 tokens/s,非常适合资源受限的环境。
研究团队已完全开源所有内容,包括代码(25个脚本共5,555行)、权重(bf16、int8及四种GGUF量化格式)和基准测试脚本,可在Hugging Face上获取。这一工作填补了中小规模阿拉伯语专用模型的空白,为阿拉伯语AI应用的普及提供了高效且易部署的解决方案。