2026-04-21站内改写

QIMMA قِمّة ⛰：以质量为先的阿拉伯语大模型排行榜

QIMMA（阿拉伯语意为“高峰”）是一个以质量为先的阿拉伯语大模型排行榜，它会在评估模型之前先验证基准数据的质量。通过多模型自动评估与人工审核相结合的方法，QIMMA 发现了多个广泛使用的阿拉伯语基准测试中存在系统性的质量问题。该排行榜整合了来自14个基准测试的109个子集，涵盖7个领域，总计超过52,000个样本，并首次在阿拉伯语大模型评估中加入了代码能力测试。

文章情报

工程师进阶

要点

QIMMA 在模型评估前对阿拉伯语基准进行严格的质量验证，发现了大量错误和文化偏差。
排行榜整合了超过52,000个样本，涵盖文化、STEM、法律、医疗、安全、诗歌和代码等7个领域。
排名靠前的模型包括 Qwen3.5-397B、Karnak 和 Jais-2-70B-Chat，阿拉伯语专用模型在文化和语言任务上表现领先。
代码评估显示，多语言模型在编程任务上优于阿拉伯语专用模型。

为什么重要

这条新闻值得关注，因为QIMMA 在模型评估前对阿拉伯语基准进行严格的质量验证，发现了大量错误和文化偏差。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

QIMMA（阿拉伯语“قمّة”的音译，意为“高峰”）是一个全新的阿拉伯语大语言模型排行榜，其核心理念是“质量优先”。与传统的排行榜不同，QIMMA 并不直接将现有的阿拉伯语基准测试拿来就用，而是在评估任何模型之前，先对基准测试本身进行严格的质量验证。研究人员发现，即使是广泛使用的阿拉伯语基准测试也包含系统性的质量问题，这些问题会悄悄污染评估结果。

阿拉伯语有超过4亿使用者，但阿拉伯语自然语言处理（NLP）的评估领域却十分碎片化。许多基准测试是从英语翻译而来，存在翻译不当和文化错位的问题；即使是原生阿拉伯语基准测试也缺乏严格的质量检查，常有注释不一致、答案错误、编码错误和文化偏见等问题。此外，现有排行榜覆盖的任务和领域有限，且缺乏可重复性。

QIMMA 填补了这些空白。它整合了来自14个源基准测试的109个子集，总共超过52,000个样本，涵盖7个领域：文化（如 AraDiCE-Culture）、STEM（如 ArabicMMLU）、法律（如 ArabLegalQA）、医疗（如 MedArabiQ）、安全（如 AraTrust）、诗歌与文学（FannOrFlop）以及代码（基于 HumanEval+ 和 MBPP+ 的阿拉伯语改编版本）。值得一提的是，QIMMA 是首个包含代码评估的阿拉伯语排行榜。

质量验证是 QIMMA 的核心贡献。验证流程分为两个阶段：第一阶段，使用两个强大的多语言模型（Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B）独立评估每个样本，依据10分制标准打分（包括答案质量、文本格式、文化敏感性等）。如果两个模型都认为样本得分低于7分，则直接淘汰；若只有一个模型标记，则进入第二阶段的人工审核。人工审核由母语为阿拉伯语的标注员进行，他们会对文化语境、方言差异和主观解释做出最终判断。

验证结果令人警醒。例如，ArabicMMLU 丢弃了约3.1%的样本，MizanQA 丢弃了2.3%，PalmX 丢弃了0.8%。问题类型包括：答案错误或索引不匹配、文本损坏或拼写错误、刻板印象等文化敏感问题，以及黄金答案与评估协议不一致。代码基准测试的修改率更高：3LM HumanEval+ 的阿拉伯语提示有88%被修改，3LM MBPP+ 有81%被修改，主要涉及语言润色、清晰度提升和结构修复。

排名结果（截至2026年4月）展现了有趣的模式。前10名模型参数量从32B到397B不等，规模并未带来绝对优势。冠军是 Qwen3.5-397B-A17B-FP8，平均得分68.06，但在文化相关任务（如 ArabCulture）上表现不如阿拉伯语专用模型。亚军 Karnak 和季军 Jais-2-70B-Chat 分别领先 STEM 和法律领域。阿拉伯语专用模型在文化任务上优势明显，而代码任务仍然是最困难的领域，多语言模型（如 Qwen 系列）在 HumanEval+ 和 MBPP+ 上得分更高。

总之，QIMMA 通过其质量优先的理念、多模型验证、人工审核、全面的领域覆盖以及完全公开的输出结果，为阿拉伯语大模型评估树立了新标准。研究人员表示，这一排行榜不仅提供了更可靠的模型排名，更重要的是揭示了现有基准测试的不足，并为未来构建更高质量的评估资源指明了方向。