2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

從評分到解釋：評估SHAP和LLM理由在基於量規的教學質量評估中的應用

本研究提出一個通用框架，結合模型無關的Shapley值歸因和大語言模型（LLM）生成的推理，為基於量規的自動評分提供句子級別的可解釋性。在CLASS框架的反饋質量維度上，使用NCTE語料庫評估，發現微調預訓練語言模型（PLM）在預測準確性上優於LLM，但存在向中等分數的標籤壓縮。基於刪除的測試表明，SHAP能更可靠地識別驅動模型預測的句子，產生更大且更一致的預測偏移，而LLM推理影響有限且不一致。跨模型分析顯示SHAP歸因在不同架構間穩健轉移。總體而言，SHAP為基於量規的評分提供了更忠實和可轉移的解釋，該框架為高風險教育環境中的評分模型評估提供了原則性基礎。

來源arXiv Computational Linguistics作者: Ivo Bueno, Babette B\"uhler, Philipp Stark, Tim F\"utterer, Ulrich Trautwein, Dorottya Demszky, Heather Hill, Enkelejda Kasneci

自動評分模型越來越多地被用於為複雜的語言表現（如課堂轉錄）分配基於量規的質量評級，但這些模型通常很少提供關於為什麼得出特定分數的見解。為了解決這一問題，研究人員提出了一個通用框架，用於基於量歸的評分句級可解釋性，該框架結合了模型無關的Shapley值歸因與大語言模型（LLM）生成的推理。該框架在課堂評估評分系統（CLASS）框架的反饋質量維度上進行了實例化，使用NCTE語料庫，從而能夠系統比較微調預訓練語言模型（PLM）和提示式LLM在評分性能和解釋忠實度方面的表現。

在6,000個帶註釋的轉錄片段上進行的實驗中，研究團隊評估了多種PLM架構（如BERT、RoBERTa）和提示式LLM（如GPT-4）。結果顯示，微調PLM在預測準確性上優於LLM，F1分數高出約10%，但表現出向中等分數的標籤壓縮現象，即極端評分（高或低）被低估。基於刪除的測試表明，SHAP能夠可靠地識別驅動模型預測的句子，通常產生比LLM生成的推理更大且更一致的預測偏移。例如，移除SHAP識別的高重要性句子後，模型預測變化平均幅度是移除LLM推理句子的兩倍。跨模型分析進一步揭示，SHAP歸因在不同架構間穩健轉移：在BERT上計算的SHAP值能夠有效解釋RoBERTa的預測，而LLM推理的轉移效果有限且不一致。

總體而言，研究結果表明，SHAP為基於量規的評分提供了更忠實和可轉移的解釋，並且提出的框架為在高風險教育環境和其他基於量規的語言評估任務中評估評分模型及其解釋提供了原則性基礎。該工作已被ACL 2026 Findings接收。論文作者包括Ivo Bueno等8位研究人員，全文可在arXiv（2606.05180）獲取。該研究對教育評估自動化的可解釋性具有重要推動作用，尤其適用於需要透明反饋的課堂觀察系統。