PhyDrawGen:从自然语言生成符合物理规律的图表
PhyDrawGen是一种神经符号管道,可从文本生成物理图,严格遵循物理定律。它先由大语言模型提取场景图,再由确定性求解器转换为平面直线图,最后通过微调Qwen-VL模型进行验证。在1449个物理问题基准测试中,其物理准确性显著优于GPT-5-image等模型。
近日,一项名为PhyDrawGen的新研究在人工智能领域引起关注,该研究提出了一种神经符号管道,能够从自然语言描述中生成严格符合物理规律的图表。当前主流生成模型虽然能生成视觉上合理的图像,但在物理准确性方面存在系统性缺陷,例如常常虚构力向量、忽视守恒定律或违反几何约束。PhyDrawGen通过将语义场景理解与物理约束满足分离,巧妙地解决了这一挑战。
该管道的工作流程分为三个阶段。首先,利用大语言模型(LLM)从问题文本中提取一个类型化场景图,该图捕捉了物体及其关系等语义信息。接着,一个确定性求解器将场景图转换为平面直线图(PSLG),在此过程中精确编码了力平衡、光路和场拓扑等物理约束。最后,一个经过微调的Qwen-VL模型实现了一个视觉基础的“提议-验证”循环,通过迭代方式自动纠正任何违反约束的情况,确保最终图表的物理一致性。
研究团队在涵盖力学、光学和电磁学三大领域的1449个物理问题上对PhyDrawGen进行了全面评估。实验结果表明,PhyDrawGen在物理准确性上显著超越了GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro等先进模型。特别是在处理非标准物体或复杂场景时,PhyDrawGen依然表现出稳健的性能,证明了其方法的有效性和泛化能力。
目前,该论文已提交至EMNLP 2026进行评审,论文包含9张图和7张表,详细展示了方法的实现细节和实验结果。PhyDrawGen的成功不仅为物理图示的自动生成开辟了新路径,也为神经符号方法在需要严格约束的领域中的应用提供了有力例证。未来,该技术有望在教育、科学研究和工程设计等场景中发挥重要作用。