AI News HubLIVE
站内改写

Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人

Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。

文章情报

投资人进阶

要点

  • Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。
  • 在塔吉克语基准测试中大幅超越同等规模的Gemma 3基线,保持英语性能。
  • FP8/INT4量化保留了大部分塔吉克语提升,降低内存需求,适合边缘部署。
  • 已在塔吉克斯坦教育部门试点,计划推广至全国学校。

为什么重要

这条新闻值得关注,因为Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

近年来,低资源语言的自然语言处理研究取得了一定进展,但像塔吉克语这样的小语种仍面临数据稀缺和计算资源有限的困境。针对这一挑战,由斯坦尼斯拉夫·利亚什科夫等六位研究者组成的团队提出了Soro——一个专为塔吉克语设计的轻量级基础模型和聊天机器人系列,旨在在计算和网络连接受限的环境下实现实际部署。Soro以开源的Gemma 3模型为起点,通过仅包含塔吉克语的持续预训练进行优化。研究团队精心构建了一个包含19亿个标记的语料库,其中包括经过筛选的网页文本、PDF文档以及与课程对齐的教育材料。这些材料覆盖了广泛的主题,确保了模型在多种语境下的适应性。在此基础上,他们使用4万个塔吉克语教师风格的示例进行监督指令微调,使模型能够更好地理解并生成符合当地教育需求的对话。该论文于2026年4月9日提交至arXiv,并引起了学术界的关注。

为了有效评估模型性能,团队还开发了一套塔吉克语基准测试套件,涵盖常识推理、语言能力理解以及模拟学校和大学入学考试等领域,并在Hugging Face平台上开源。实验结果显示,在塔吉克语基准测试中,Soro显著优于同等规模的Gemma 3基线,同时在英语标准数据集上保持了强大的性能。这表明通过持续预训练和指令微调,模型能够在特定语言上获得专门能力而不损失通用知识。此外,研究还表明,应用FP8和INT4量化后,Soro在保留大部分塔吉克语性能提升的同时,大幅降低了内存需求,使其非常适合边缘设备部署。量化技术使得模型能够在资源受限的设备上运行,进一步拓展了其应用场景。目前,Soro已在塔吉克斯坦的教育部门进行试点,并计划逐步推广到全国各学校。这一工作为低资源语言的大模型应用提供了重要的参考,也展示了开源模型在特定语言领域微调的巨大潜力。未来,研究团队计划进一步扩大语料规模,并探索多语言扩展的可能性。