LLMの問題解決能力の調査 – 静力学問題に関する研究
新たな研究では、モデル蒸留プロセスを用いてLLMの静力学問題における性能を評価。LLMはテキストのみの問題では良好な成績を示すが、図表や多段階推論が必要になると精度が低下する。その原因は画像認識の限界ではなく、多段階推論の困難さにあることが示唆された。
大規模言語モデル(LLM)は近年、社会の多くの側面、特に教育分野に急速な影響を与えている。その理由は、さまざまな科目の課題や試験をこなす能力が実証されているためである。これまでの研究ではLLMの教育的影響が調査されてきたが、その多くは公開された問題データセットに依存しており、トピック固有の分析が不足している。工学教育、特に機械工学において、特定の問題タイプに対するLLMの性能を体系的に調査した研究はまだ限られている。
従来の方法では教科書の問題をそのままLLMツールに尋ねるが、本研究ではモデル蒸留プロセスを採用し、静力学問題の解決能力を評価した。ChatGPTを蒸留することで、テキストのみの静力学問題25問を抽出し、さらに図表を追加したデータセットと数値を変更したデータセットの2つを構築した。実験結果によると、LLMはテキストのみの静力学問題では良好な成績を示すが、図表が導入され、かつ多段階の推論が必要な問題では精度が低下する。さらなる分析により、この性能低下の主な原因は画像認識の限界ではなく、多段階推論の困難さと、抽出した視覚情報を連続する解法段階で一貫して適用する際の問題にあることが示唆された。
この研究は2026年4月30日にarXivに提出され、Engineering and Technology Symposium 2026にて発表された9ページの論文である。論文のコードとデータはGitHubで公開されており、再現やさらなる研究が可能である。この発見は、LLMを工学教育に活用する際の重要な知見を提供し、評価ツールの設計においてLLMの推論上の弱点を考慮する必要性を示している。また、モデル蒸留アプローチが特定領域の能力評価に有効であることを示しており、今後のより詳細な能力テストの方向性を示唆している。