AI News HubLIVE
站内改写1 分鐘閱讀

從無到有:語言模型能否發現“零”的概念?

一項新研究探索語言模型是否能獨立發現“零”這一數學概念。研究發現,GPT-2規模的語言模型在零樣本情況下無法泛化,但透過少量示例訓練後效能顯著提升,且語言預訓練可減少所需示例約50%,表明語言能力有助於神經網路的數學發現。

來源arXiv AI作者: Phoebe Zeng, Thomas L. Griffiths, Brenden M. Lake

一篇來自2026年的研究論文《Nothing from Something: Can a Language Model Discover 0?》近日在arXiv上公開,由Phoebe Zeng等三位研究者共同完成。該研究聚焦於一個核心問題:基於人工神經網路的AI系統能否超越其訓練資料的邊界,獨立發現全新的數學概念?數學上的發現要求模型具備強大的分佈外泛化能力,即能夠假設出真正新穎的、甚至邏輯上更強大的數學結構。此前在認知科學中,語言能力被認為可能支撐這種泛化。為了驗證這一假設,研究者選取了最簡單也最基礎的數學概念——'零'作為測試案例,使用簡單的算術運算來評估現代語言模型。他們採用了GPT-2規模的語言模型,在包含加法如'0+3=3'等表達的資料集上進行實驗。結果顯示,在沒有提供任何'零'相關示例的情況下,模型在測試中完全無法泛化出'零'的概念,無論是否經過了大規模語言預訓練。但是,當模型經過僅數十到數百個包含零的算術示例微調後,其效能出現了顯著提升。更有趣的是,那些預先經過語言訓練的模型,只需要大約一半數量的示例就能達到同等效能,這表明語言能力在神經網路進行數學發現時起到了支架或腳手架的作用。這一發現對於理解AI如何實現更強的創新能力和數學直覺具有重要意義,也為未來開發能夠自主探索數學新領域的AI系統提供了寶貴的經驗。論文目前可透過arXiv獲取,編號為2606.17289,並提供了PDF和HTML實驗版等多種瀏覽方式。