PhyDrawGen: 自然言語からの物理的根拠に基づく図生成
PhyDrawGenは、テキストから物理法則に従った図を生成するニューロシンボリックパイプラインです。大規模言語モデルでシーングラフを抽出し、決定論的ソルバーで平面直線グラフに変換し、ファインチューニングされたQwen-VLモデルで検証します。1449の物理問題ベンチマークで、GPT-5-imageやGeminiモデルを上回る性能を示しました。
最近、PhyDrawGenと呼ばれる新しい研究が人工知能分野で注目を集めています。この研究は、自然言語の記述から物理法則に厳密に従った図を生成するニューロシンボリックパイプラインを提案しています。現在の生成モデルは視覚的に妥当な出力を生成できますが、力ベクトルの幻覚、保存則の無視、幾何学的制約の違反といった系統的な問題を抱えています。PhyDrawGenは、意味的な場面理解と物理的制約の充足を分離することで、この課題に巧みに対処します。
パイプラインの動作は3段階に分かれます。最初に、大規模言語モデル(LLM)が問題テキストから型付きシーングラフを抽出し、物体とその関係などの意味情報を取得します。次に、決定論的ソルバーがこのグラフを平面直線グラフ(PSLG)に変換し、力の釣り合い、光路、場のトポロジーなどの物理的制約を正確な幾何プリミティブとしてエンコードします。最後に、ファインチューニングされたQwen-VLモデルが視覚に基づいた提案検証ループを実装し、制約違反を反復的に修正して、最終的な図の物理的一貫性を確保します。
研究チームは、力学、光学、電磁気学の3分野にわたる1449の物理問題でPhyDrawGenを評価しました。実験結果は、PhyDrawGenがGPT-5-image、Gemini 2.5 Flash、Gemini 3 Proなどの最先端モデルを物理的精度で大幅に上回ることを示しています。特に、非標準的な物体や複雑なシナリオを扱う場合でも、PhyDrawGenは堅牢な性能を発揮し、その手法の有効性と汎化能力を証明しました。
現在、この論文はEMNLP 2026に投稿中で、9枚の図と7枚の表が手法の詳細と実験結果を示しています。PhyDrawGenの成功は、物理図の自動生成に新たな道を開くだけでなく、厳格な制約を必要とする分野におけるニューロシンボリック手法の応用に強力な事例を提供します。将来的には、教育、科学研究、エンジニアリング設計などのシーンで重要な役割を果たすことが期待されます。