2026-04-21站内改写

QIMMA قِمّة ⛰：以質量為先的阿拉伯語大模型排行榜

QIMMA（阿拉伯語意為“高峰”）是一個以質量為先的阿拉伯語大模型排行榜，它會在評估模型之前先驗證基準資料的質量。透過多模型自動評估與人工稽核相結合的方法，QIMMA 發現了多個廣泛使用的阿拉伯語基準測試中存在系統性的質量問題。該排行榜整合了來自14個基準測試的109個子集，涵蓋7個領域，總計超過52,000個樣本，並首次在阿拉伯語大模型評估中加入了程式碼能力測試。

文章情報

工程師進階

要點

QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證，發現了大量錯誤和文化偏差。
排行榜整合了超過52,000個樣本，涵蓋文化、STEM、法律、醫療、安全、詩歌和程式碼等7個領域。
排名靠前的模型包括 Qwen3.5-397B、Karnak 和 Jais-2-70B-Chat，阿拉伯語專用模型在文化和語言任務上表現領先。
程式碼評估顯示，多語言模型在程式設計任務上優於阿拉伯語專用模型。

為什麼重要

這條新聞值得關注，因為QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證，發現了大量錯誤和文化偏差。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

QIMMA（阿拉伯語“قمّة”的音譯，意為“高峰”）是一個全新的阿拉伯語大語言模型排行榜，其核心理念是“質量優先”。與傳統的排行榜不同，QIMMA 並不直接將現有的阿拉伯語基準測試拿來就用，而是在評估任何模型之前，先對基準測試本身進行嚴格的質量驗證。研究人員發現，即使是廣泛使用的阿拉伯語基準測試也包含系統性的質量問題，這些問題會悄悄汙染評估結果。

阿拉伯語有超過4億使用者，但阿拉伯語自然語言處理（NLP）的評估領域卻十分碎片化。許多基準測試是從英語翻譯而來，存在翻譯不當和文化錯位的問題；即使是原生阿拉伯語基準測試也缺乏嚴格的質量檢查，常有註釋不一致、答案錯誤、編碼錯誤和文化偏見等問題。此外，現有排行榜覆蓋的任務和領域有限，且缺乏可重複性。

QIMMA 填補了這些空白。它整合了來自14個源基準測試的109個子集，總共超過52,000個樣本，涵蓋7個領域：文化（如 AraDiCE-Culture）、STEM（如 ArabicMMLU）、法律（如 ArabLegalQA）、醫療（如 MedArabiQ）、安全（如 AraTrust）、詩歌與文學（FannOrFlop）以及程式碼（基於 HumanEval+ 和 MBPP+ 的阿拉伯語改編版本）。值得一提的是，QIMMA 是首個包含程式碼評估的阿拉伯語排行榜。

質量驗證是 QIMMA 的核心貢獻。驗證流程分為兩個階段：第一階段，使用兩個強大的多語言模型（Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B）獨立評估每個樣本，依據10分制標準打分（包括答案質量、文本格式、文化敏感性等）。如果兩個模型都認為樣本得分低於7分，則直接淘汰；若只有一個模型標記，則進入第二階段的人工稽核。人工稽核由母語為阿拉伯語的標註員進行，他們會對文化語境、方言差異和主觀解釋做出最終判斷。

驗證結果令人警醒。例如，ArabicMMLU 丟棄了約3.1%的樣本，MizanQA 丟棄了2.3%，PalmX 丟棄了0.8%。問題型別包括：答案錯誤或索引不匹配、文本損壞或拼寫錯誤、刻板印象等文化敏感問題，以及黃金答案與評估協議不一致。程式碼基準測試的修改率更高：3LM HumanEval+ 的阿拉伯語提示有88%被修改，3LM MBPP+ 有81%被修改，主要涉及語言潤色、清晰度提升和結構修復。

排名結果（截至2026年4月）展現了有趣的模式。前10名模型引數量從32B到397B不等，規模並未帶來絕對優勢。冠軍是 Qwen3.5-397B-A17B-FP8，平均得分68.06，但在文化相關任務（如 ArabCulture）上表現不如阿拉伯語專用模型。亞軍 Karnak 和季軍 Jais-2-70B-Chat 分別領先 STEM 和法律領域。阿拉伯語專用模型在文化任務上優勢明顯，而程式碼任務仍然是最困難的領域，多語言模型（如 Qwen 系列）在 HumanEval+ 和 MBPP+ 上得分更高。

總之，QIMMA 透過其質量優先的理念、多模型驗證、人工稽核、全面的領域覆蓋以及完全公開的輸出結果，為阿拉伯語大模型評估樹立了新標準。研究人員表示，這一排行榜不僅提供了更可靠的模型排名，更重要的是揭示了現有基準測試的不足，併為未來構建更高質量的評估資源指明瞭方向。