AI News HubLIVE
站内改写

QIMMA قِمّة ⛰:以質量為先的阿拉伯語大模型排行榜

QIMMA(阿拉伯語意為“高峰”)是一個以質量為先的阿拉伯語大模型排行榜,它會在評估模型之前先驗證基準資料的質量。透過多模型自動評估與人工稽核相結合的方法,QIMMA 發現了多個廣泛使用的阿拉伯語基準測試中存在系統性的質量問題。該排行榜整合了來自14個基準測試的109個子集,涵蓋7個領域,總計超過52,000個樣本,並首次在阿拉伯語大模型評估中加入了程式碼能力測試。

文章情報

工程師進階

要點

  • QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。
  • 排行榜整合了超過52,000個樣本,涵蓋文化、STEM、法律、醫療、安全、詩歌和程式碼等7個領域。
  • 排名靠前的模型包括 Qwen3.5-397B、Karnak 和 Jais-2-70B-Chat,阿拉伯語專用模型在文化和語言任務上表現領先。
  • 程式碼評估顯示,多語言模型在程式設計任務上優於阿拉伯語專用模型。

為什麼重要

這條新聞值得關注,因為QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

QIMMA(阿拉伯語“قمّة”的音譯,意為“高峰”)是一個全新的阿拉伯語大語言模型排行榜,其核心理念是“質量優先”。與傳統的排行榜不同,QIMMA 並不直接將現有的阿拉伯語基準測試拿來就用,而是在評估任何模型之前,先對基準測試本身進行嚴格的質量驗證。研究人員發現,即使是廣泛使用的阿拉伯語基準測試也包含系統性的質量問題,這些問題會悄悄汙染評估結果。

阿拉伯語有超過4億使用者,但阿拉伯語自然語言處理(NLP)的評估領域卻十分碎片化。許多基準測試是從英語翻譯而來,存在翻譯不當和文化錯位的問題;即使是原生阿拉伯語基準測試也缺乏嚴格的質量檢查,常有註釋不一致、答案錯誤、編碼錯誤和文化偏見等問題。此外,現有排行榜覆蓋的任務和領域有限,且缺乏可重複性。

QIMMA 填補了這些空白。它整合了來自14個源基準測試的109個子集,總共超過52,000個樣本,涵蓋7個領域:文化(如 AraDiCE-Culture)、STEM(如 ArabicMMLU)、法律(如 ArabLegalQA)、醫療(如 MedArabiQ)、安全(如 AraTrust)、詩歌與文學(FannOrFlop)以及程式碼(基於 HumanEval+ 和 MBPP+ 的阿拉伯語改編版本)。值得一提的是,QIMMA 是首個包含程式碼評估的阿拉伯語排行榜。

質量驗證是 QIMMA 的核心貢獻。驗證流程分為兩個階段:第一階段,使用兩個強大的多語言模型(Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B)獨立評估每個樣本,依據10分制標準打分(包括答案質量、文本格式、文化敏感性等)。如果兩個模型都認為樣本得分低於7分,則直接淘汰;若只有一個模型標記,則進入第二階段的人工稽核。人工稽核由母語為阿拉伯語的標註員進行,他們會對文化語境、方言差異和主觀解釋做出最終判斷。

驗證結果令人警醒。例如,ArabicMMLU 丟棄了約3.1%的樣本,MizanQA 丟棄了2.3%,PalmX 丟棄了0.8%。問題型別包括:答案錯誤或索引不匹配、文本損壞或拼寫錯誤、刻板印象等文化敏感問題,以及黃金答案與評估協議不一致。程式碼基準測試的修改率更高:3LM HumanEval+ 的阿拉伯語提示有88%被修改,3LM MBPP+ 有81%被修改,主要涉及語言潤色、清晰度提升和結構修復。

排名結果(截至2026年4月)展現了有趣的模式。前10名模型引數量從32B到397B不等,規模並未帶來絕對優勢。冠軍是 Qwen3.5-397B-A17B-FP8,平均得分68.06,但在文化相關任務(如 ArabCulture)上表現不如阿拉伯語專用模型。亞軍 Karnak 和季軍 Jais-2-70B-Chat 分別領先 STEM 和法律領域。阿拉伯語專用模型在文化任務上優勢明顯,而程式碼任務仍然是最困難的領域,多語言模型(如 Qwen 系列)在 HumanEval+ 和 MBPP+ 上得分更高。

總之,QIMMA 透過其質量優先的理念、多模型驗證、人工稽核、全面的領域覆蓋以及完全公開的輸出結果,為阿拉伯語大模型評估樹立了新標準。研究人員表示,這一排行榜不僅提供了更可靠的模型排名,更重要的是揭示了現有基準測試的不足,併為未來構建更高質量的評估資源指明瞭方向。