QIMMA قِمّة ⛰:以質量為先的阿拉伯語大模型排行榜
QIMMA(阿拉伯語意為“高峯”)是一個以質量為先的阿拉伯語大模型排行榜,它會在評估模型之前先驗證基準數據的質量。通過多模型自動評估與人工審核相結合的方法,QIMMA 發現了多個廣泛使用的阿拉伯語基準測試中存在系統性的質量問題。該排行榜整合了來自14個基準測試的109個子集,涵蓋7個領域,總計超過52,000個樣本,並首次在阿拉伯語大模型評估中加入了代碼能力測試。
文章情報
要點
- QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。
- 排行榜整合了超過52,000個樣本,涵蓋文化、STEM、法律、醫療、安全、詩歌和代碼等7個領域。
- 排名靠前的模型包括 Qwen3.5-397B、Karnak 和 Jais-2-70B-Chat,阿拉伯語專用模型在文化和語言任務上表現領先。
- 代碼評估顯示,多語言模型在編程任務上優於阿拉伯語專用模型。
為甚麼重要
這條新聞值得關注,因為QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
QIMMA(阿拉伯語“قمّة”的音譯,意為“高峯”)是一個全新的阿拉伯語大語言模型排行榜,其核心理念是“質量優先”。與傳統的排行榜不同,QIMMA 並不直接將現有的阿拉伯語基準測試拿來就用,而是在評估任何模型之前,先對基準測試本身進行嚴格的質量驗證。研究人員發現,即使是廣泛使用的阿拉伯語基準測試也包含系統性的質量問題,這些問題會悄悄污染評估結果。
阿拉伯語有超過4億使用者,但阿拉伯語自然語言處理(NLP)的評估領域卻十分碎片化。許多基準測試是從英語翻譯而來,存在翻譯不當和文化錯位的問題;即使是原生阿拉伯語基準測試也缺乏嚴格的質量檢查,常有註釋不一致、答案錯誤、編碼錯誤和文化偏見等問題。此外,現有排行榜覆蓋的任務和領域有限,且缺乏可重複性。
QIMMA 填補了這些空白。它整合了來自14個源基準測試的109個子集,總共超過52,000個樣本,涵蓋7個領域:文化(如 AraDiCE-Culture)、STEM(如 ArabicMMLU)、法律(如 ArabLegalQA)、醫療(如 MedArabiQ)、安全(如 AraTrust)、詩歌與文學(FannOrFlop)以及代碼(基於 HumanEval+ 和 MBPP+ 的阿拉伯語改編版本)。值得一提的是,QIMMA 是首個包含代碼評估的阿拉伯語排行榜。
質量驗證是 QIMMA 的核心貢獻。驗證流程分為兩個階段:第一階段,使用兩個強大的多語言模型(Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B)獨立評估每個樣本,依據10分制標準打分(包括答案質量、文本格式、文化敏感性等)。如果兩個模型都認為樣本得分低於7分,則直接淘汰;若只有一個模型標記,則進入第二階段的人工審核。人工審核由母語為阿拉伯語的標註員進行,他們會對文化語境、方言差異和主觀解釋做出最終判斷。
驗證結果令人警醒。例如,ArabicMMLU 丟棄了約3.1%的樣本,MizanQA 丟棄了2.3%,PalmX 丟棄了0.8%。問題類型包括:答案錯誤或索引不匹配、文本損壞或拼寫錯誤、刻板印象等文化敏感問題,以及黃金答案與評估協議不一致。代碼基準測試的修改率更高:3LM HumanEval+ 的阿拉伯語提示有88%被修改,3LM MBPP+ 有81%被修改,主要涉及語言潤色、清晰度提升和結構修復。
排名結果(截至2026年4月)展現了有趣的模式。前10名模型參數量從32B到397B不等,規模並未帶來絕對優勢。冠軍是 Qwen3.5-397B-A17B-FP8,平均得分68.06,但在文化相關任務(如 ArabCulture)上表現不如阿拉伯語專用模型。亞軍 Karnak 和季軍 Jais-2-70B-Chat 分別領先 STEM 和法律領域。阿拉伯語專用模型在文化任務上優勢明顯,而代碼任務仍然是最困難的領域,多語言模型(如 Qwen 系列)在 HumanEval+ 和 MBPP+ 上得分更高。
總之,QIMMA 通過其質量優先的理念、多模型驗證、人工審核、全面的領域覆蓋以及完全公開的輸出結果,為阿拉伯語大模型評估樹立了新標準。研究人員表示,這一排行榜不僅提供了更可靠的模型排名,更重要的是揭示了現有基準測試的不足,併為未來構建更高質量的評估資源指明瞭方向。