AI News HubLIVE
站内改写1 分鐘閱讀

PhyDrawGen:從自然語言生成符合物理規律的圖表

PhyDrawGen是一種神經符號管道,可從文本生成物理圖,嚴格遵循物理定律。它先由大語言模型提取場景圖,再由確定性求解器轉換為平面直線圖,最後通過微調Qwen-VL模型進行驗證。在1449個物理問題基準測試中,其物理準確性顯著優於GPT-5-image等模型。

來源arXiv AI作者: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman

近日,一項名為PhyDrawGen的新研究在人工智能領域引起關注,該研究提出了一種神經符號管道,能夠從自然語言描述中生成嚴格符合物理規律的圖表。當前主流生成模型雖然能生成視覺上合理的圖像,但在物理準確性方面存在系統性缺陷,例如常常虛構力向量、忽視守恆定律或違反幾何約束。PhyDrawGen通過將語義場景理解與物理約束滿足分離,巧妙地解決了這一挑戰。

該管道的工作流程分為三個階段。首先,利用大語言模型(LLM)從問題文本中提取一個類型化場景圖,該圖捕捉了物體及其關係等語義信息。接着,一個確定性求解器將場景圖轉換為平面直線圖(PSLG),在此過程中精確編碼了力平衡、光路和場拓撲等物理約束。最後,一個經過微調的Qwen-VL模型實現了一個視覺基礎的“提議-驗證”循環,通過迭代方式自動糾正任何違反約束的情況,確保最終圖表的物理一致性。

研究團隊在涵蓋力學、光學和電磁學三大領域的1449個物理問題上對PhyDrawGen進行了全面評估。實驗結果表明,PhyDrawGen在物理準確性上顯著超越了GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro等先進模型。特別是在處理非標準物體或複雜場景時,PhyDrawGen依然表現出穩健的性能,證明了其方法的有效性和泛化能力。

目前,該論文已提交至EMNLP 2026進行評審,論文包含9張圖和7張表,詳細展示了方法的實現細節和實驗結果。PhyDrawGen的成功不僅為物理圖示的自動生成開闢了新路徑,也為神經符號方法在需要嚴格約束的領域中的應用提供了有力例證。未來,該技術有望在教育、科學研究和工程設計等場景中發揮重要作用。