2026-05-26 16:20 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題

谷歌DeepMind發佈AlphaProof Nexus，基於Gemini 3.1 Pro和Lean編譯器，一口氣解決了9道埃爾德什開放問題，另有44個OEIS猜想、一道15年代數幾何難題等，每道題成本僅幾百美元。

來源量子位作者: 闻乐

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題 – 量子位

聞樂 2026-05-26 16:20:39

來源：量子位

解決卡了人類56年的數學難題

聞樂發自凹非寺

量子位 | 公眾號 QbitAI

AI進軍數學界的速度太快了。

OpenAI前腳剛用內部模型突破埃爾德什的80年單位距離問題，谷歌DeepMind後腳就解決一個同樣卡了人類56年的埃爾德什數學難題——

最新發布AlphaProof Nexus，一套由Gemini驅動的智能體框架，一齣手就是9個埃爾德什開放問題

除了這9道，它還順手證明了OEIS整數序列百科裏的44個猜想、搞定了一道擱置15年的代數幾何難題、還改進了凸優化領域裏一個沿用已久的理論邊界。

推理成本呢？每道題幾百美元，整套證明代碼也全都開源放在了GitHub上。

這篇論文共有20位作者，其中的Aja Huang，也是2016年AlphaGo的核心研究員。

56年沒人做出來的題，AI 給了什麼答案

AlphaProof Nexus解決的這幾道題，咱挑三道最有意思的説説。

Erdős #12，1970年提出，懸置56年

這道題問的是：你能不能找出一個無限大的整數集合，滿足兩個聽起來很彆扭的條件：

第一，任意從中挑三個不同的數字a、b、c，a永遠不能整除b加c的和。

第二，這組數不能太零散，在自然數里要保持一定的密度。

簡單理解就是，這羣數字之間，既不能一個數整除另一個數，也不能一個數整除另外兩個數的和，同時數字還要分佈得相對密集，不能只挑寥寥幾個數投機取巧。

從1970年開始，就沒人能給出這個集合的完整構造，各種局部進展有，但始終拼不成一個整體解。

AI的解法是用中國剩餘定理把大問題拆成許多個獨立的區塊，每個區塊內部用三項等差數列的迴避集來滿足約束，然後把所有區塊拼回一個完整的無限集。

Erdős #125，1996年提出，30年沒有定論

這道題聽着就更奇怪了。

想象兩個數字集合：第一個集合裏全是“在三進制下只由數字0和1組成的整數”，第二個集合裏全是“在四進制下只由數字0和1組成的整數”。把這兩個集合裏所有數字兩兩相加，得到一個新集合。

問：這個新集合裏的數字在自然數中出現的頻率（數學上叫下密度）是不是正的？

直覺上你可能會覺得，兩種集合包含的數字本來就不算很多，加起來應該也挺稀疏的。

但稀疏到什麼程度？是徹底稀到密度歸零，還是多少保持一點正密度？

這中間的差別非常微妙，1996年提出後一直沒定論。

AI的答案是：密度為零。

證明思路是log₄除以log₃是無理數。這意味着3的冪次和4的冪次可以以任意精度彼此逼近。

利用這一點，AI構造了一個歸納性稀疏化論證：不斷找到兩個幾乎對齊的尺度，讓密度以0.99的比率一步步衰減，直到徹底歸零。

一個純數論的性質，解決了一個組合幾何的問題。

Erdős #846，1992年提出，卡了人類34年。

這是個平面幾何題，AI證明了存在這樣一個無限擴展的平面點集：

你從中任意挑出有限個點，總能發現其中大部分點是不共線的——

隨便截一段，看起來都挺正常，但當你試圖把這個無限集合拆分成有限個“絕對沒有任何三點共線”的子集時，辦不到。

一個集合的每個有限局部都正常，但整體頑固得不可拆分。這種全局與局部的張力，是組合幾何裏最難的那一類問題。

AI把完全圖的每條邊映射到平面上一個點，用二次多項式編碼座標，再拉上無窮Ramsey定理完成證明，把一個幾何問題翻譯成了圖論和邏輯的語言。

除了這三道，還有六道分別在整除集構造、範德瓦爾登數間隙、西頓集孤立點、集合拆分密度等領域。

同時，AlphaProof Nexus還在OEIS整數序列百科裏證明了44個開放猜想，在代數幾何那邊解決了一道希爾伯特函數對數凹性的15年懸案，凸優化那邊改進了一個錨定梯度下降法的理論邊界。

菲爾茲獎得主陶哲軒曾經提醒過，AI目前解決埃爾德什問題的實際成功率大約在1-2%，這次谷歌的系統挑戰了353道題，解開9道，比例剛好對上了。

用幾百美元算力換一道56年難題

AlphaProof Nexus的架構核心用一句話就能説清楚，Gemini 3.1 Pro生成Lean語言證明步驟→Lean編譯器逐行檢查→報錯直接反饋給模型→模型根據報錯修改→再檢查→循環到全部通過。

好傢伙，這有點像平時寫代碼，只不過現在Debug的是數學定理……

在這套框架裏，DeepMind設計了四個Agent。

最簡單的Agent A是同時啓動多個獨立子Agent，先靠Gemini 3.1 Pro梳理解題思路，動手編寫證明代碼。

寫完立刻交給編譯器核驗，一旦報錯，錯誤信息就會傳回模型，讓它不斷修改、重試，直到通關。

全程沒有額外輔助工具，純靠寫代碼+查錯循環。

Agent B多了一樣東西，AlphaProof。

AlphaProof是DeepMind之前專門為奧數級別題目訓練過的強化學習證明工具。

當Agent A模式在某個小步驟上反覆卡住、編譯器反覆報錯也修不過來時，Agent B可以調用AlphaProof做一次強化學習驅動的樹搜索，專門攻擊這個局部難點。

Agent C引入了進化算法的思路。

前面兩種Agent的子Agent都是各自獨立工作的，互不交流。

Agent C是所有子Agent共享一個證明草圖種羣，每一個子模塊都會產出不同的證明草稿。

然後由另一個模型從合理性、清晰度、新穎性三個維度給每一份草稿打分，用Elo評分系統排名。

高分草稿會相互組合，衍生出新解法，低分草稿直接淘汰，整個種羣在證明空間裏做進化搜索。

Agent D是全功能完全體，進化篩選思路+專項工具攻克難點+大模型邏輯推理，三股力量在一個框架裏協同，也是這次批量破解難題的主力。

這麼看下來，我以為最強的Agent D應該會碾壓一切，Agent A只當個對照組。

結果沒想到論文裏表明最簡單的Agent A，同樣能解出全部9道題。

沒有進化算法，沒有AlphaProof，就一個LLM循環加編譯器反饋的Agent A，只是在難題上更費錢一點。

研究團隊把原因歸為兩個：

一是Gemini 3.1 Pro本身的能力已經足夠強了；

二是Lean編譯器的那層實打實的糾錯反饋，對AI的引導作用，遠比人們預想的更大。

這個結果或許也在預示着，未來隨着大模型能力持續升級，複雜的多工具組合系統，可能不再是剛需，只用大模型+專業校驗工具這套簡單循環，就能搞定大多數數學難題。

而且這套方案的優勢也體現在成本上，單題僅需幾百美元。

埃爾德什生前為這些難題設置了懸賞，只是他不會想到——

解開這些謎題的可能不是人類智慧，而是算力。

論文地址：https://arxiv.org/abs/2605.22763v1

Github地址：https://github.com/google-deepmind/alphaproof-nexus-results

參考鏈接：

[1]https://x.com/pushmeet/status/2058936037754224998

[2]https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

AI數學埃爾德什問題

聞樂

京東JoyInside戴文軍：AI的終極形態不是聊天，是融入你家每一件物品丨AIGC20262026-05-25

騰訊混元開源全新翻譯模型Hy-MT2 ，上線小程序「騰訊Hy翻譯」2026-05-21

菲爾茲獎得主都看懵了：OpenAI非數學模型首次自主突破80年未解數學難題2026-05-21

蝦馬之後又火一個！OpenHuman用20分鐘瞭解你的一切，存成卡帕西式知識庫2026-05-16

相關閲讀

AI七個月突破數學家“圍剿”反超人類！14位數學家深挖原始推理token：不靠死記硬背靠直覺

也有侷限性：缺乏創造力和理解深度

魚羊2025-06-09

AI數學

AI能證明數學數據庫中82%的問題，新SOTA已達成，基於Transformer

來自臉書AI團隊

明敏2022-05-26

AI數學 Meta AI

陶哲軒：AI讓業餘數學家也能做出貢獻

“我用維基百科學習數學”

白交2024-02-25

AI數學數學陶哲軒

情人節最硬核“Kiss”！中國AI突破300年親吻數難題，連刷多維度紀錄

數學結構領域罕見的多維度、系統性突破

聞樂2026-02-14

AI數學上智院親吻數問題

清華AI數學家：獨立完成理論難題，自動調用基本定理構建證明思路

證明完成度很高。

白交2025-06-05

AI數學清華

DeepMind給AI出了200萬道數學題，結果不如計算器哈哈哈哈哈

原來我的數學比AI還好

栗子郭一璞2019-04-04

AI數學 DeepMind