2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

PhyDrawGen：從自然語言生成符合物理規律的圖表

PhyDrawGen是一種神經符號管道，可從文本生成物理圖，嚴格遵循物理定律。它先由大語言模型提取場景圖，再由確定性求解器轉換為平面直線圖，最後通過微調Qwen-VL模型進行驗證。在1449個物理問題基準測試中，其物理準確性顯著優於GPT-5-image等模型。

來源arXiv AI作者: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman

近日，一項名為PhyDrawGen的新研究在人工智能領域引起關注，該研究提出了一種神經符號管道，能夠從自然語言描述中生成嚴格符合物理規律的圖表。當前主流生成模型雖然能生成視覺上合理的圖像，但在物理準確性方面存在系統性缺陷，例如常常虛構力向量、忽視守恆定律或違反幾何約束。PhyDrawGen通過將語義場景理解與物理約束滿足分離，巧妙地解決了這一挑戰。

該管道的工作流程分為三個階段。首先，利用大語言模型（LLM）從問題文本中提取一個類型化場景圖，該圖捕捉了物體及其關係等語義信息。接着，一個確定性求解器將場景圖轉換為平面直線圖（PSLG），在此過程中精確編碼了力平衡、光路和場拓撲等物理約束。最後，一個經過微調的Qwen-VL模型實現了一個視覺基礎的“提議-驗證”循環，通過迭代方式自動糾正任何違反約束的情況，確保最終圖表的物理一致性。

研究團隊在涵蓋力學、光學和電磁學三大領域的1449個物理問題上對PhyDrawGen進行了全面評估。實驗結果表明，PhyDrawGen在物理準確性上顯著超越了GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro等先進模型。特別是在處理非標準物體或複雜場景時，PhyDrawGen依然表現出穩健的性能，證明了其方法的有效性和泛化能力。

目前，該論文已提交至EMNLP 2026進行評審，論文包含9張圖和7張表，詳細展示了方法的實現細節和實驗結果。PhyDrawGen的成功不僅為物理圖示的自動生成開闢了新路徑，也為神經符號方法在需要嚴格約束的領域中的應用提供了有力例證。未來，該技術有望在教育、科學研究和工程設計等場景中發揮重要作用。