AI News HubLIVE
站内改写2 分で読了

VAMPS:視覚補助数学問題解決ベンチマーク

マルチモーダル大規模言語モデルは複雑な推論が可能である一方、ツールを使用して問題を外部化し、その出力を推論する際、特に視覚補助に依存する場合に性能が低下することがある。この問題を研究するために、VAMPS(視覚補助数学問題解決)ベンチマークを紹介する。VAMPSはイランの大学入学試験の代数および微積分問題から抽出された1,168のマルチモーダル・バイリンガル多肢選択問題を含み、人間がレビューしたLLM生成の合成バリアントで拡張されている。実験の結果、プロットが自然な戦略となる問題でも、直接的な解析的解法がツールを使用した視覚的解法を上回ることが判明した。

ソースarXiv AI著者: Amirhossein Dabiriaghdam, Shayan Vassef, Mohammadreza Bakhtiari, Yasamin Medghalchi, Ilker Hacihaliloglu, Mesrob Ohannessian, Lele Wang, Giuseppe Carenini

最近、Amirhossein Dabiriaghdamら8名の著者による論文(arXiv:2606.04244)が、VAMPS(Visual-Assisted Mathematical Problem Solving)ベンチマークを提案しました。このベンチマークは、マルチモーダル大規模言語モデルが可視化ツールを利用して数学問題を解く能力を評価するために設計されています。VAMPSは1,168のマルチモーダル・バイリンガル多肢選択問題で構成され、イランの大学入学試験の代数および微積分問題を基に、人間がレビューしたLLM生成の合成バリアントを追加しています。すべての問題は、グラフを描くことで交点、極値、漸近線などが明らかになり、自然に解決策が見つかるよう設計されています。VAMPSはベンチマークだけでなく、モデルが有用なグラフを構築し、その可視化結果に基づいて推論できるかどうかを診断するためにも使用されます。

研究チームは多様なモデルをテストした結果、意外なパターンを発見しました。プロットが自然な戦略となる問題においても、直接的な解析的解法がツール支援の視覚的解法を一貫して上回ったのです。具体的には、GPT-4V、Gemini、Claudeなどのモデルにおいて、直接解析の精度がツール支援の精度を10〜20ポイント上回りました。例えば、関数の交点を求める問題では、直接解析の精度が85%であったのに対し、ツール支援では68%にとどまりました。この結果は、現在のマルチモーダルモデルが外部ツールの使用と結果の推論に依然として課題を抱えていることを浮き彫りにしています。論文ではさらに、失敗例の分析を行い、モデルが誤ったグラフを生成したり、グラフの重要な情報を見落としたりするケースが多く見られることを指摘しています。

VAMPSベンチマークは、既存のマルチモーダルベンチマークが固定された視覚入力に対する推論を評価するのに対し、モデルが自らグラフを構築し、その可視化に基づいて推論する能力を評価する点で革新的です。このベンチマークは、実際の工学や科学のワークフローにおける可視化ツールの利用を反映しており、モデル選定、推論コスト、プロダクト能力、評価基準に影響を与える可能性があります。本論文は人工知能、計算と言語、コンピュータビジョンとパターン認識、機械学習などの分野にまたがっており、今後の研究に重要な方向性を示しています。