AI News HubLIVE
站內改寫1 分鐘閱讀

探究LLM問題解決能力——基於靜力學問題的研究

一項新研究通過模型蒸餾方法評估LLM在靜力學問題上的表現,發現LLM在處理純文本問題時表現良好,但引入圖表和多步推理後準確率下降。分析表明,性能下降主要源於多步推理困難,而非圖像識別限制。

來源arXiv Computational Linguistics作者: Tanner Culleton, Hung-Fu Chang

大型語言模型(LLM)近年來迅速滲透到社會的多個領域,尤其在教育界,它們展現出了完成各類作業和考試的能力。儘管已有研究探討了LLM的教育影響,但現有工作大多依賴於公開或開放性數據集,缺乏針對特定主題的深入分析。在工程教育領域,尤其是機械工程中,系統性地考察LLM在特定問題類型上的表現仍十分有限。

不同於傳統方法直接向LLM工具提問教科書問題,這項研究採用模型蒸餾過程來評估LLM解決靜力學問題的能力。研究人員通過蒸餾ChatGPT,提取了25道純文本靜力學問題,並進一步構建了兩個附加數據集:一個添加了圖表,另一個修改了數值。實驗結果顯示,LLM在純文本靜力學問題上表現良好,但引入圖表且問題需要多步推理時,準確率下降。進一步分析表明,這種性能下降的主要原因並非圖像識別能力的限制,而是多步推理困難以及在連續求解階段一致應用提取的視覺信息方面存在挑戰。

該研究於2026年4月30日提交至arXiv,來自工程與技術研討會2026,共9頁。研究代碼和數據已在GitHub上公開,可供復現和進一步探索。這項發現對於理解LLM在工程學科中的實際應用具有重要價值,提示教育者在設計評估工具時需考慮LLM的推理弱點。此外,該研究強調了模型蒸餾方法在評估LLM特定領域能力中的有效性,為未來更精細化的能力測試提供了思路。