2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:01 UTC+8

探究LLM问题解决能力——基于静力学问题的研究

一项新研究通过模型蒸馏方法评估LLM在静力学问题上的表现，发现LLM在处理纯文本问题时表现良好，但引入图表和多步推理后准确率下降。分析表明，性能下降主要源于多步推理困难，而非图像识别限制。

来源arXiv Computational Linguistics作者: Tanner Culleton, Hung-Fu Chang

大型语言模型（LLM）近年来迅速渗透到社会的多个领域，尤其在教育界，它们展现出了完成各类作业和考试的能力。尽管已有研究探讨了LLM的教育影响，但现有工作大多依赖于公开或开放性数据集，缺乏针对特定主题的深入分析。在工程教育领域，尤其是机械工程中，系统性地考察LLM在特定问题类型上的表现仍十分有限。

不同于传统方法直接向LLM工具提问教科书问题，这项研究采用模型蒸馏过程来评估LLM解决静力学问题的能力。研究人员通过蒸馏ChatGPT，提取了25道纯文本静力学问题，并进一步构建了两个附加数据集：一个添加了图表，另一个修改了数值。实验结果显示，LLM在纯文本静力学问题上表现良好，但引入图表且问题需要多步推理时，准确率下降。进一步分析表明，这种性能下降的主要原因并非图像识别能力的限制，而是多步推理困难以及在连续求解阶段一致应用提取的视觉信息方面存在挑战。

该研究于2026年4月30日提交至arXiv，来自工程与技术研讨会2026，共9页。研究代码和数据已在GitHub上公开，可供复现和进一步探索。这项发现对于理解LLM在工程学科中的实际应用具有重要价值，提示教育者在设计评估工具时需考虑LLM的推理弱点。此外，该研究强调了模型蒸馏方法在评估LLM特定领域能力中的有效性，为未来更精细化的能力测试提供了思路。