Elmes*:面向長尾教育場景的大語言模型細粒度評估標準自動構建
本文提出Elmes*框架,用於自動構建、優化和應用於教育場景的細粒度評估標準。通過多智能體引擎和自進化模塊SceneGen,構建了涵蓋11個學科、3個年級段、10種任務類型、超1000個二級指標的Edu-330基準。實驗表明教育能力是多維的,頂尖LLM在創造力和價值觀整合上差異顯著,知識型模型可能在蘇格拉底式引導中失敗,教育專用模型InnoSpark取得最佳人工評分。LLM評估者保持與人類相當的排名,但存在自我偏好等偏差。該框架為基於教學法的LLM評估提供了可擴展的診斷基礎設施。
近日,一篇發表於arXiv上的研究論文提出了Elmes*框架,旨在自動構建用於評估大語言模型(LLM)在教育場景中表現的高度細粒度評估標準。長期以來,現有的教育評測基準要麼側重於通用知識的正確性,要麼依賴人工設計的評分準則,難以適應多樣化的長尾教學場景。Elmes*通過一個聲明式多智能體引擎模擬教師、學生和評分者之間的互動,並結合一個自進化模塊SceneGen,從專家定義的教學維度出發,共同優化評估標準和測試數據。
利用這一框架,研究團隊構建了Edu-330基準,涵蓋了11個學科(如數學、文學、科學等)、3個年級段(小學、初中、高中)和10種任務類型(如解釋、提問、反饋等),總計超過1000個二級指標。在Edu-330以及四個由專家撰寫的黃金標準場景上的實驗表明,教育能力是一個多維概念。頂級LLM之間的主要差異體現在創造力和價值觀整合上;知識儲備強的模型可能在蘇格拉底式引導任務中失敗;而專為教育設計的InnoSpark模型在人工評估中取得了最高平均分。
進一步分析發現,LLM作為評分者能夠保持與人類可比的排名順序,且評分方差更低,但存在特定偏差,例如傾向於給自己的輸出更高評分(自我偏好)。消融實驗顯示,引入專家評分的少樣本錨定可以改善人機評分對齊,而推理強制和貪婪解碼策略的效果則依賴於具體模型。
Elmes*為教育場景下的LLM評估提供了可擴展的診斷基礎設施,有望推動更符合教學法要求的模型能力評估。該研究由Tao Liu等七位作者完成,論文代碼尚未公開,但Edu-330基準和框架設計細節已在論文中詳細描述。