ADeLe:預測和解釋AI跨任務效能的新方法
ADeLe由微軟研究院與普林斯頓大學和瓦倫西亞理工大學合作開發,透過對18種核心能力(如推理和領域知識)對AI模型和任務進行評分,能夠以約88%的準確率預測模型在未見任務上的表現。它揭示了模型的優勢和弱點,提供了超越傳統基準的可解釋AI評估。
ADeLe:用能力剖析代替單一基準,預測並解釋AI的跨任務表現
人工智慧基準測試通常報告大型語言模型(LLM)在特定任務上的表現,但很少揭示驅動這些表現的底層能力。它們無法解釋失敗原因,也不能可靠地預測新任務上的結果。為了應對這一挑戰,微軟研究院聯合普林斯頓大學和瓦倫西亞理工大學,提出了ADeLe(AI Evaluation with Demand Levels)方法,該方法透過一套廣泛的能力(如推理和領域知識)來描述模型和任務,從而能夠預測新任務上的表現,並將其與模型的具體優勢和弱點聯絡起來。
在《自然》雜誌發表的一篇論文中,研究團隊描述了ADeLe如何超越聚合的基準評分。它不是將評估視為一系列孤立的測試,而是使用相同的能力評分集來表示基準和LLM。這些評分隨後可用於估算模型在未見任務上的表現。該研究得到了微軟加速基礎模型研究(AFMR)資助專案的支援。
ADeLe在18種核心能力(如注意力、推理、領域知識)上對任務進行評分,並根據任務對每種能力的需求程度分配0到5的評分。例如,一個基本的算術問題可能在定量推理方面得分較低,但奧林匹克級別的證明題則會高得多。在眾多工上評估模型會產生一個能力剖面——一個結構化檢視,顯示模型在哪些方面表現良好,在哪些方面出現問題。將此剖面與新任務的需求進行比較,可以識別導致失敗的具體差距。
使用ADeLe,研究團隊評估了一系列AI基準和模型行為,以瞭解當前評估捕獲了什麼以及遺漏了什麼。結果表明,許多廣泛使用的基準提供了不完整且有時具有誤導性的模型能力圖景,而更結構化的方法可以澄清這些差距,並幫助預測模型在新環境中的行為。ADeLe顯示,許多基準並未隔離它們旨在衡量的能力,或者只覆蓋了有限範圍的難度水平。例如,一個旨在評估邏輯推理的測試也可能嚴重依賴專業知識或元認知。其他測試則聚焦於狹窄的難度範圍,省略了更簡單和更復雜的情況。透過對任務所需能力進行評分,ADeLe使這些不匹配變得可見,並提供了一種診斷現有基準和設計更好基準的方法。
將該框架應用於15個LLM,研究團隊使用18種能力的0-5評分構建了能力剖面。對於每種能力,團隊測量了效能如何隨任務難度變化,並使用模型有50%成功可能性的難度水平作為其能力分數。分析顯示,模型在各項能力上的優勢和弱點各不相同。較新的模型通常表現優於舊模型,但在所有能力上並不一致。知識密集型任務的表現強烈依賴於模型大小和訓練,而面向推理的模型在執行邏輯、學習、抽象和社會推理的任務上顯示出明顯提升。這些模式通常需要多次獨立分析,並且當任務需求未得到仔細控制時,仍可能產生矛盾結論。ADeLe在單一框架內揭示了這些模式。
ADeLe還支援預測。透過將模型的能力剖面與任務需求進行比較,它可以預測模型是否會成功,即使是面對不熟悉的任務。在實驗中,這種方法對GPT-4o和LLaMA-3.1-405B等模型達到了約88%的準確率,優於傳統方法。這使得在部署前解釋和預測潛在失敗成為可能,提高了AI模型評估的可靠性和可預測性。
關於AI系統能否真正推理是領域內的核心爭論。一些研究報告了強大的推理效能,而另一些則顯示它們在規模化時崩潰。這些結果反映了任務難度的差異。ADeLe顯示,標記為“推理”的基準在需求上有所不同,從基本問題解決到需要高階邏輯、抽象和領域知識的任務。同一模型在低需求測試上得分可超過90%,而在高需求測試上低於15%,這反映了任務需求的差異而非能力變化。像OpenAI的o1和GPT-5這樣的推理導向模型顯示出可衡量的提升——不僅在邏輯和數學方面,還包括使用者意圖解釋。然而,隨著任務需求的增加,效能會下降。AI系統可以推理,但僅限於一定程度,而ADeLe確定了每個模型的這個臨界點。
ADeLe旨在隨著AI的進步而發展,並且可以擴充套件到多模態和具身AI系統。它還有潛力作為AI研究、政策制定和安全審計的標準化框架。更廣泛地說,它推進了一種更系統的AI評估方法——一種解釋系統行為並預測效能的方法。這項工作建立在早期努力的基礎上,包括微軟將心理測量學應用於AI評估的研究以及最近關於社會AI的工作,強調了AI評估的重要性。
隨著通用AI系統持續超越現有評估方法,像ADeLe這樣的方法為實際使用中更嚴格和透明的評估提供了路徑。研究團隊正在透過與更廣泛的社群合作來擴充套件這項工作。額外的實驗、基準註釋和資源可在GitHub上獲取。