AI News HubLIVE
站内改写1 分钟阅读

从评分到解释:评估SHAP和LLM理由在基于量规的教学质量评估中的应用

本研究提出一个通用框架,结合模型无关的Shapley值归因和大语言模型(LLM)生成的推理,为基于量规的自动评分提供句子级别的可解释性。在CLASS框架的反馈质量维度上,使用NCTE语料库评估,发现微调预训练语言模型(PLM)在预测准确性上优于LLM,但存在向中等分数的标签压缩。基于删除的测试表明,SHAP能更可靠地识别驱动模型预测的句子,产生更大且更一致的预测偏移,而LLM推理影响有限且不一致。跨模型分析显示SHAP归因在不同架构间稳健转移。总体而言,SHAP为基于量规的评分提供了更忠实和可转移的解释,该框架为高风险教育环境中的评分模型评估提供了原则性基础。

来源arXiv Computational Linguistics作者: Ivo Bueno, Babette B\"uhler, Philipp Stark, Tim F\"utterer, Ulrich Trautwein, Dorottya Demszky, Heather Hill, Enkelejda Kasneci

自动评分模型越来越多地被用于为复杂的语言表现(如课堂转录)分配基于量规的质量评级,但这些模型通常很少提供关于为什么得出特定分数的见解。为了解决这一问题,研究人员提出了一个通用框架,用于基于量归的评分句级可解释性,该框架结合了模型无关的Shapley值归因与大语言模型(LLM)生成的推理。该框架在课堂评估评分系统(CLASS)框架的反馈质量维度上进行了实例化,使用NCTE语料库,从而能够系统比较微调预训练语言模型(PLM)和提示式LLM在评分性能和解释忠实度方面的表现。

在6,000个带注释的转录片段上进行的实验中,研究团队评估了多种PLM架构(如BERT、RoBERTa)和提示式LLM(如GPT-4)。结果显示,微调PLM在预测准确性上优于LLM,F1分数高出约10%,但表现出向中等分数的标签压缩现象,即极端评分(高或低)被低估。基于删除的测试表明,SHAP能够可靠地识别驱动模型预测的句子,通常产生比LLM生成的推理更大且更一致的预测偏移。例如,移除SHAP识别的高重要性句子后,模型预测变化平均幅度是移除LLM推理句子的两倍。跨模型分析进一步揭示,SHAP归因在不同架构间稳健转移:在BERT上计算的SHAP值能够有效解释RoBERTa的预测,而LLM推理的转移效果有限且不一致。

总体而言,研究结果表明,SHAP为基于量规的评分提供了更忠实和可转移的解释,并且提出的框架为在高风险教育环境和其他基于量规的语言评估任务中评估评分模型及其解释提供了原则性基础。该工作已被ACL 2026 Findings接收。论文作者包括Ivo Bueno等8位研究人员,全文可在arXiv(2606.05180)获取。该研究对教育评估自动化的可解释性具有重要推动作用,尤其适用于需要透明反馈的课堂观察系统。