QIMMA قِمّة ⛰:以质量为先的阿拉伯语大模型排行榜
QIMMA(阿拉伯语意为“高峰”)是一个以质量为先的阿拉伯语大模型排行榜,它会在评估模型之前先验证基准数据的质量。通过多模型自动评估与人工审核相结合的方法,QIMMA 发现了多个广泛使用的阿拉伯语基准测试中存在系统性的质量问题。该排行榜整合了来自14个基准测试的109个子集,涵盖7个领域,总计超过52,000个样本,并首次在阿拉伯语大模型评估中加入了代码能力测试。
文章情报
要点
- QIMMA 在模型评估前对阿拉伯语基准进行严格的质量验证,发现了大量错误和文化偏差。
- 排行榜整合了超过52,000个样本,涵盖文化、STEM、法律、医疗、安全、诗歌和代码等7个领域。
- 排名靠前的模型包括 Qwen3.5-397B、Karnak 和 Jais-2-70B-Chat,阿拉伯语专用模型在文化和语言任务上表现领先。
- 代码评估显示,多语言模型在编程任务上优于阿拉伯语专用模型。
为什么重要
这条新闻值得关注,因为QIMMA 在模型评估前对阿拉伯语基准进行严格的质量验证,发现了大量错误和文化偏差。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
QIMMA(阿拉伯语“قمّة”的音译,意为“高峰”)是一个全新的阿拉伯语大语言模型排行榜,其核心理念是“质量优先”。与传统的排行榜不同,QIMMA 并不直接将现有的阿拉伯语基准测试拿来就用,而是在评估任何模型之前,先对基准测试本身进行严格的质量验证。研究人员发现,即使是广泛使用的阿拉伯语基准测试也包含系统性的质量问题,这些问题会悄悄污染评估结果。
阿拉伯语有超过4亿使用者,但阿拉伯语自然语言处理(NLP)的评估领域却十分碎片化。许多基准测试是从英语翻译而来,存在翻译不当和文化错位的问题;即使是原生阿拉伯语基准测试也缺乏严格的质量检查,常有注释不一致、答案错误、编码错误和文化偏见等问题。此外,现有排行榜覆盖的任务和领域有限,且缺乏可重复性。
QIMMA 填补了这些空白。它整合了来自14个源基准测试的109个子集,总共超过52,000个样本,涵盖7个领域:文化(如 AraDiCE-Culture)、STEM(如 ArabicMMLU)、法律(如 ArabLegalQA)、医疗(如 MedArabiQ)、安全(如 AraTrust)、诗歌与文学(FannOrFlop)以及代码(基于 HumanEval+ 和 MBPP+ 的阿拉伯语改编版本)。值得一提的是,QIMMA 是首个包含代码评估的阿拉伯语排行榜。
质量验证是 QIMMA 的核心贡献。验证流程分为两个阶段:第一阶段,使用两个强大的多语言模型(Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B)独立评估每个样本,依据10分制标准打分(包括答案质量、文本格式、文化敏感性等)。如果两个模型都认为样本得分低于7分,则直接淘汰;若只有一个模型标记,则进入第二阶段的人工审核。人工审核由母语为阿拉伯语的标注员进行,他们会对文化语境、方言差异和主观解释做出最终判断。
验证结果令人警醒。例如,ArabicMMLU 丢弃了约3.1%的样本,MizanQA 丢弃了2.3%,PalmX 丢弃了0.8%。问题类型包括:答案错误或索引不匹配、文本损坏或拼写错误、刻板印象等文化敏感问题,以及黄金答案与评估协议不一致。代码基准测试的修改率更高:3LM HumanEval+ 的阿拉伯语提示有88%被修改,3LM MBPP+ 有81%被修改,主要涉及语言润色、清晰度提升和结构修复。
排名结果(截至2026年4月)展现了有趣的模式。前10名模型参数量从32B到397B不等,规模并未带来绝对优势。冠军是 Qwen3.5-397B-A17B-FP8,平均得分68.06,但在文化相关任务(如 ArabCulture)上表现不如阿拉伯语专用模型。亚军 Karnak 和季军 Jais-2-70B-Chat 分别领先 STEM 和法律领域。阿拉伯语专用模型在文化任务上优势明显,而代码任务仍然是最困难的领域,多语言模型(如 Qwen 系列)在 HumanEval+ 和 MBPP+ 上得分更高。
总之,QIMMA 通过其质量优先的理念、多模型验证、人工审核、全面的领域覆盖以及完全公开的输出结果,为阿拉伯语大模型评估树立了新标准。研究人员表示,这一排行榜不仅提供了更可靠的模型排名,更重要的是揭示了现有基准测试的不足,并为未来构建更高质量的评估资源指明了方向。