2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Soro：专为塔吉克语打造的轻量级基础模型与聊天机器人

Soro是一系列专为塔吉克语优化的对话大语言模型，基于Gemma 3检查点，通过19亿标记的塔吉克语持续预训练和4万示例的指令微调，显著提升了塔吉克语任务表现，同时保持英语性能。模型支持FP8和INT4量化，适用于边缘部署，已在塔吉克斯坦教育领域试点。

来源arXiv AI作者: Stanislav Liashkov, Haitz S\'aez de Oc\'ariz Borde, Azizjon Azimi, Khushbakht Shaymardonov, Shuhratjon Khalitbekov, Bonu Boboeva

近年来，低资源语言的自然语言处理研究取得了一定进展，但像塔吉克语这样的小语种仍面临数据稀缺和计算资源有限的困境。针对这一挑战，由斯坦尼斯拉夫·利亚什科夫等六位研究者组成的团队提出了Soro——一个专为塔吉克语设计的轻量级基础模型和聊天机器人系列，旨在在计算和网络连接受限的环境下实现实际部署。Soro以开源的Gemma 3模型为起点，通过仅包含塔吉克语的持续预训练进行优化。研究团队精心构建了一个包含19亿个标记的语料库，其中包括经过筛选的网页文本、PDF文档以及与课程对齐的教育材料。这些材料覆盖了广泛的主题，确保了模型在多种语境下的适应性。在此基础上，他们使用4万个塔吉克语教师风格的示例进行监督指令微调，使模型能够更好地理解并生成符合当地教育需求的对话。该论文于2026年4月9日提交至arXiv，并引起了学术界的关注。

为了有效评估模型性能，团队还开发了一套塔吉克语基准测试套件，涵盖常识推理、语言能力理解以及模拟学校和大学入学考试等领域，并在Hugging Face平台上开源。实验结果显示，在塔吉克语基准测试中，Soro显著优于同等规模的Gemma 3基线，同时在英语标准数据集上保持了强大的性能。这表明通过持续预训练和指令微调，模型能够在特定语言上获得专门能力而不损失通用知识。此外，研究还表明，应用FP8和INT4量化后，Soro在保留大部分塔吉克语性能提升的同时，大幅降低了内存需求，使其非常适合边缘设备部署。量化技术使得模型能够在资源受限的设备上运行，进一步拓展了其应用场景。目前，Soro已在塔吉克斯坦的教育部门进行试点，并计划逐步推广到全国各学校。这一工作为低资源语言的大模型应用提供了重要的参考，也展示了开源模型在特定语言领域微调的巨大潜力。未来，研究团队计划进一步扩大语料规模，并探索多语言扩展的可能性。