留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題
谷歌DeepMind發佈AlphaProof Nexus,基於Gemini 3.1 Pro和Lean編譯器,一口氣解決了9道埃爾德什開放問題,另有44個OEIS猜想、一道15年代數幾何難題等,每道題成本僅幾百美元。
文章情報
要點
- AlphaProof Nexus解決了9道埃爾德什問題,其中最長懸置56年。
- 系統由四個智能體組成,最簡單版本僅靠大模型加編譯器反饋就完成任務。
- 單題成本僅幾百美元,展示了AI解決數學難題的巨大潛力。
為甚麼重要
這條新聞值得關注,因為AlphaProof Nexus解決了9道埃爾德什問題,其中最長懸置56年。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題 – 量子位
留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題
聞樂 2026-05-26 16:20:39
來源:量子位
解決卡了人類56年的數學難題
聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AI進軍數學界的速度太快了。
OpenAI前腳剛用內部模型突破埃爾德什的80年單位距離問題,谷歌DeepMind後腳就解決一個同樣卡了人類56年的埃爾德什數學難題——
最新發布AlphaProof Nexus,一套由Gemini驅動的智能體框架,一齣手就是9個埃爾德什開放問題
除了這9道,它還順手證明了OEIS整數序列百科裏的44個猜想、搞定了一道擱置15年的代數幾何難題、還改進了凸優化領域裏一個沿用已久的理論邊界。
推理成本呢?每道題幾百美元,整套證明代碼也全都開源放在了GitHub上。
這篇論文共有20位作者,其中的Aja Huang,也是2016年AlphaGo的核心研究員。
56年沒人做出來的題,AI 給了什麼答案
AlphaProof Nexus解決的這幾道題,咱挑三道最有意思的説説。
Erdős #12,1970年提出,懸置56年
這道題問的是:你能不能找出一個無限大的整數集合,滿足兩個聽起來很彆扭的條件:
第一,任意從中挑三個不同的數字a、b、c,a永遠不能整除b加c的和。
第二,這組數不能太零散,在自然數里要保持一定的密度。
簡單理解就是,這羣數字之間,既不能一個數整除另一個數,也不能一個數整除另外兩個數的和,同時數字還要分佈得相對密集,不能只挑寥寥幾個數投機取巧。
從1970年開始,就沒人能給出這個集合的完整構造,各種局部進展有,但始終拼不成一個整體解。
AI的解法是用中國剩餘定理把大問題拆成許多個獨立的區塊,每個區塊內部用三項等差數列的迴避集來滿足約束,然後把所有區塊拼回一個完整的無限集。
Erdős #125,1996年提出,30年沒有定論
這道題聽着就更奇怪了。
想象兩個數字集合:第一個集合裏全是“在三進制下只由數字0和1組成的整數”,第二個集合裏全是“在四進制下只由數字0和1組成的整數”。把這兩個集合裏所有數字兩兩相加,得到一個新集合。
問:這個新集合裏的數字在自然數中出現的頻率(數學上叫下密度)是不是正的?
直覺上你可能會覺得,兩種集合包含的數字本來就不算很多,加起來應該也挺稀疏的。
但稀疏到什麼程度?是徹底稀到密度歸零,還是多少保持一點正密度?
這中間的差別非常微妙,1996年提出後一直沒定論。
AI的答案是:密度為零。
證明思路是log₄除以log₃是無理數。這意味着3的冪次和4的冪次可以以任意精度彼此逼近。
利用這一點,AI構造了一個歸納性稀疏化論證:不斷找到兩個幾乎對齊的尺度,讓密度以0.99的比率一步步衰減,直到徹底歸零。
一個純數論的性質,解決了一個組合幾何的問題。
Erdős #846,1992年提出,卡了人類34年。
這是個平面幾何題,AI證明了存在這樣一個無限擴展的平面點集:
你從中任意挑出有限個點,總能發現其中大部分點是不共線的——
隨便截一段,看起來都挺正常,但當你試圖把這個無限集合拆分成有限個“絕對沒有任何三點共線”的子集時,辦不到。
一個集合的每個有限局部都正常,但整體頑固得不可拆分。這種全局與局部的張力,是組合幾何裏最難的那一類問題。
AI把完全圖的每條邊映射到平面上一個點,用二次多項式編碼座標,再拉上無窮Ramsey定理完成證明,把一個幾何問題翻譯成了圖論和邏輯的語言。
除了這三道,還有六道分別在整除集構造、範德瓦爾登數間隙、西頓集孤立點、集合拆分密度等領域。
同時,AlphaProof Nexus還在OEIS整數序列百科裏證明了44個開放猜想,在代數幾何那邊解決了一道希爾伯特函數對數凹性的15年懸案,凸優化那邊改進了一個錨定梯度下降法的理論邊界。
菲爾茲獎得主陶哲軒曾經提醒過,AI目前解決埃爾德什問題的實際成功率大約在1-2%,這次谷歌的系統挑戰了353道題,解開9道,比例剛好對上了。
用幾百美元算力換一道56年難題
AlphaProof Nexus的架構核心用一句話就能説清楚,Gemini 3.1 Pro生成Lean語言證明步驟→Lean編譯器逐行檢查→報錯直接反饋給模型→模型根據報錯修改→再檢查→循環到全部通過。
好傢伙,這有點像平時寫代碼,只不過現在Debug的是數學定理……
在這套框架裏,DeepMind設計了四個Agent。
最簡單的Agent A是同時啓動多個獨立子Agent,先靠Gemini 3.1 Pro梳理解題思路,動手編寫證明代碼。
寫完立刻交給編譯器核驗,一旦報錯,錯誤信息就會傳回模型,讓它不斷修改、重試,直到通關。
全程沒有額外輔助工具,純靠寫代碼+查錯循環。
Agent B多了一樣東西,AlphaProof。
AlphaProof是DeepMind之前專門為奧數級別題目訓練過的強化學習證明工具。
當Agent A模式在某個小步驟上反覆卡住、編譯器反覆報錯也修不過來時,Agent B可以調用AlphaProof做一次強化學習驅動的樹搜索,專門攻擊這個局部難點。
Agent C引入了進化算法的思路。
前面兩種Agent的子Agent都是各自獨立工作的,互不交流。
Agent C是所有子Agent共享一個證明草圖種羣,每一個子模塊都會產出不同的證明草稿。
然後由另一個模型從合理性、清晰度、新穎性三個維度給每一份草稿打分,用Elo評分系統排名。
高分草稿會相互組合,衍生出新解法,低分草稿直接淘汰,整個種羣在證明空間裏做進化搜索。
Agent D是全功能完全體,進化篩選思路+專項工具攻克難點+大模型邏輯推理,三股力量在一個框架裏協同,也是這次批量破解難題的主力。
這麼看下來,我以為最強的Agent D應該會碾壓一切,Agent A只當個對照組。
結果沒想到論文裏表明最簡單的Agent A,同樣能解出全部9道題。
沒有進化算法,沒有AlphaProof,就一個LLM循環加編譯器反饋的Agent A,只是在難題上更費錢一點。
研究團隊把原因歸為兩個:
一是Gemini 3.1 Pro本身的能力已經足夠強了;
二是Lean編譯器的那層實打實的糾錯反饋,對AI的引導作用,遠比人們預想的更大。
這個結果或許也在預示着,未來隨着大模型能力持續升級,複雜的多工具組合系統,可能不再是剛需,只用大模型+專業校驗工具這套簡單循環,就能搞定大多數數學難題。
而且這套方案的優勢也體現在成本上,單題僅需幾百美元。
埃爾德什生前為這些難題設置了懸賞,只是他不會想到——
解開這些謎題的可能不是人類智慧,而是算力。
論文地址:https://arxiv.org/abs/2605.22763v1
Github地址:https://github.com/google-deepmind/alphaproof-nexus-results
參考鏈接:
[1]https://x.com/pushmeet/status/2058936037754224998
[2]https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
AI數學 埃爾德什問題
聞樂
京東JoyInside戴文軍:AI的終極形態不是聊天,是融入你家每一件物品丨AIGC20262026-05-25
騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程序「騰訊Hy翻譯」2026-05-21
菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題2026-05-21
蝦馬之後又火一個!OpenHuman用20分鐘瞭解你的一切,存成卡帕西式知識庫2026-05-16
相關閲讀
AI七個月突破數學家“圍剿”反超人類!14位數學家深挖原始推理token:不靠死記硬背靠直覺
也有侷限性:缺乏創造力和理解深度
魚羊2025-06-09
AI數學
AI能證明數學數據庫中82%的問題,新SOTA已達成,基於Transformer
來自臉書AI團隊
明敏2022-05-26
AI數學 Meta AI
陶哲軒:AI讓業餘數學家也能做出貢獻
“我用維基百科學習數學”
白交2024-02-25
AI數學 數學 陶哲軒
情人節最硬核“Kiss”!中國AI突破300年親吻數難題,連刷多維度紀錄
數學結構領域罕見的多維度、系統性突破
聞樂2026-02-14
AI數學 上智院 親吻數問題
清華AI數學家:獨立完成理論難題,自動調用基本定理構建證明思路
證明完成度很高。
白交2025-06-05
AI數學 清華
DeepMind給AI出了200萬道數學題,結果不如計算器哈哈哈哈哈
原來我的數學比AI還好
栗子郭一璞2019-04-04
AI數學 DeepMind
熱門文章
菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題
2026-05-21
智象未來超兩千億參數圖像大模型HiDream-O1-Image-Pro發佈,融資持續提速
2026-05-20
太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026
2026-05-20
騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程序「騰訊Hy翻譯」
2026-05-21
Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五
2026-05-21
掃碼關注量子位
量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1