AI News HubLIVE
站内改写1 分钟阅读

Elmes*:面向长尾教育场景的大语言模型细粒度评估标准自动构建

本文提出Elmes*框架,用于自动构建、优化和应用于教育场景的细粒度评估标准。通过多智能体引擎和自进化模块SceneGen,构建了涵盖11个学科、3个年级段、10种任务类型、超1000个二级指标的Edu-330基准。实验表明教育能力是多维的,顶尖LLM在创造力和价值观整合上差异显著,知识型模型可能在苏格拉底式引导中失败,教育专用模型InnoSpark取得最佳人工评分。LLM评估者保持与人类相当的排名,但存在自我偏好等偏差。该框架为基于教学法的LLM评估提供了可扩展的诊断基础设施。

来源arXiv Machine Learning作者: Tao Liu, Ye Lu, Ruohua Zhang, Siyu Song, Wentao Liu, Aimin Zhou, Hao Hao

近日,一篇发表于arXiv上的研究论文提出了Elmes*框架,旨在自动构建用于评估大语言模型(LLM)在教育场景中表现的高度细粒度评估标准。长期以来,现有的教育评测基准要么侧重于通用知识的正确性,要么依赖人工设计的评分准则,难以适应多样化的长尾教学场景。Elmes*通过一个声明式多智能体引擎模拟教师、学生和评分者之间的互动,并结合一个自进化模块SceneGen,从专家定义的教学维度出发,共同优化评估标准和测试数据。

利用这一框架,研究团队构建了Edu-330基准,涵盖了11个学科(如数学、文学、科学等)、3个年级段(小学、初中、高中)和10种任务类型(如解释、提问、反馈等),总计超过1000个二级指标。在Edu-330以及四个由专家撰写的黄金标准场景上的实验表明,教育能力是一个多维概念。顶级LLM之间的主要差异体现在创造力和价值观整合上;知识储备强的模型可能在苏格拉底式引导任务中失败;而专为教育设计的InnoSpark模型在人工评估中取得了最高平均分。

进一步分析发现,LLM作为评分者能够保持与人类可比的排名顺序,且评分方差更低,但存在特定偏差,例如倾向于给自己的输出更高评分(自我偏好)。消融实验显示,引入专家评分的少样本锚定可以改善人机评分对齐,而推理强制和贪婪解码策略的效果则依赖于具体模型。

Elmes*为教育场景下的LLM评估提供了可扩展的诊断基础设施,有望推动更符合教学法要求的模型能力评估。该研究由Tao Liu等七位作者完成,论文代码尚未公开,但Edu-330基准和框架设计细节已在论文中详细描述。