2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

PhyDrawGen：从自然语言生成符合物理规律的图表

PhyDrawGen是一种神经符号管道，可从文本生成物理图，严格遵循物理定律。它先由大语言模型提取场景图，再由确定性求解器转换为平面直线图，最后通过微调Qwen-VL模型进行验证。在1449个物理问题基准测试中，其物理准确性显著优于GPT-5-image等模型。

来源arXiv AI作者: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman

近日，一项名为PhyDrawGen的新研究在人工智能领域引起关注，该研究提出了一种神经符号管道，能够从自然语言描述中生成严格符合物理规律的图表。当前主流生成模型虽然能生成视觉上合理的图像，但在物理准确性方面存在系统性缺陷，例如常常虚构力向量、忽视守恒定律或违反几何约束。PhyDrawGen通过将语义场景理解与物理约束满足分离，巧妙地解决了这一挑战。

该管道的工作流程分为三个阶段。首先，利用大语言模型（LLM）从问题文本中提取一个类型化场景图，该图捕捉了物体及其关系等语义信息。接着，一个确定性求解器将场景图转换为平面直线图（PSLG），在此过程中精确编码了力平衡、光路和场拓扑等物理约束。最后，一个经过微调的Qwen-VL模型实现了一个视觉基础的“提议-验证”循环，通过迭代方式自动纠正任何违反约束的情况，确保最终图表的物理一致性。

研究团队在涵盖力学、光学和电磁学三大领域的1449个物理问题上对PhyDrawGen进行了全面评估。实验结果表明，PhyDrawGen在物理准确性上显著超越了GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro等先进模型。特别是在处理非标准物体或复杂场景时，PhyDrawGen依然表现出稳健的性能，证明了其方法的有效性和泛化能力。

目前，该论文已提交至EMNLP 2026进行评审，论文包含9张图和7张表，详细展示了方法的实现细节和实验结果。PhyDrawGen的成功不仅为物理图示的自动生成开辟了新路径，也为神经符号方法在需要严格约束的领域中的应用提供了有力例证。未来，该技术有望在教育、科学研究和工程设计等场景中发挥重要作用。