2026-05-21 15:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

【AINews】OpenAI GPT-next 花不到1000美元推翻80年曆史的Erdős平面單位距離問題

今日AI新聞彙總：OpenAI的通用推理模型在不到1000美元的成本下推翻了著名的Erdős平面單位距離問題，獲得數學家高度認可；Cohere釋出Command A+開源模型，採用Apache 2.0許可；Google推出Gemini 3.5 Flash和Omni等多款更新；多項基準測試顯示當前AI代理在複雜工程任務中仍表現不佳。

來源Latent Space

文章情報

工程師進階

要點

OpenAI內部模型以低於1000美元的計算成本否定了Erdős平面單位距離問題，這是通用AI解決公開數學難題的里程碑。
Cohere釋出Command A+作為Apache 2.0開源模型，約218B MoE引數，可在2×H100上執行。
Google I/O後續：Gemini 3.5 Flash免費開放，Gemini Omni主打多模態創作，AI Studio強化開發工具。
InferenceBench等基準顯示前沿代理在系統級工程任務中不如簡單基線，記憶系統平均準確率僅27.9%。

為什麼重要

這條新聞值得關注，因為OpenAI內部模型以低於1000美元的計算成本否定了Erdős平面單位距離問題，這是通用AI解決公開數學難題的里程碑。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

今日AI領域迎來多項重大進展，其中OpenAI在數學問題上的突破尤為引人注目。據OpenAI宣佈，其內部的一個通用推理模型（外界猜測為GPT-5.6）在不到32小時、成本低於1000美元的情況下，成功否定了1946年提出的Erdős平面單位距離問題。這一成果不僅具有數學意義，更因為它出自通用模型而非專門的數學系統（如AlphaProof），從而為AI在科學領域的廣泛應用帶來了希望。OpenAI研究員Hongxun Wu稱這是內部推理LLM在“最難問題”上的里程碑。著名數學家Timothy Gowers表示，這是第一個真正清晰的AI解決著名開放數學問題的例子。OpenAI強調，該模型並非全力執行，未來將向公眾開放。輸出長達125頁，其中“第39頁”引發了特別關注。

在模型開放方面，Cohere今天釋出了Command A+，採用Apache 2.0開源許可。這是Cohere首個完全開放的Apache 2模型，引數規模約為218B MoE（25B活躍），支援多模態和48種語言，並且可以在低至2×H100的硬體上執行。社群反應積極，認為這是向更開放的企業級模型邁出的重要一步。基準測試顯示，Command A+在Artificial Analysis智慧指數上得分為37，接近Claude 4.5 Haiku水平，尤其在非幻覺表現上出色，但科學推理和編碼能力弱於頂級模型。其架構選擇也引發了討論，包括並行Transformer塊、大量共享專家、LayerNorm而非RMSNorm等。

Google繼續推進I/O大會後的更新。Gemini 3.5 Flash在Gemini應用中全球免費開放，Google稱其為最強的代理和編碼模型，速度是同類模型的4倍，成本不到一半。但外部評價更為謹慎，有人質疑其實際價效比。Gemini Omni則更受好評，作為多模態對話模型，它支援影片編輯和混合輸入工作流。此外，AI Studio加強了端到端開發工作流，Science Skills整合了30多個生命科學資料來源。

在代理和基準測試方面，多項新基準揭示了前沿模型的侷限性。InferenceBench聚焦AI研究自動化，結果顯示當前代理在系統級工程、依賴管理和廣泛探索上表現不佳，甚至不如簡單的vLLM/SGLang超引數調優基線。Terminal-Bench Science將代理評估擴充套件到科學工作流。MINTEval測試長上下文記憶系統，平均準確率僅27.9%，表明記憶需要專門的學習子系統而非簡單的RAG。ThoughtTrace釋出大規模使用者思維標註資料集，可提升使用者行為預測41.7%。

檢索基礎設施方面，Perplexity推出了查詢感知的上下文壓縮系統，可減少70%的上下文令牌同時提升答案質量；Weaviate 1.37增加了MMR重排序；SID-1作為RL訓練的代理搜尋模型，召回率是RAG+重排序的1.9倍，速度快24倍，成本低99%。

開發者工具方面，Cursor、VS Code和Codex均有更新。Cursor在代理工作區新增了自動化功能，VS Code改進了Markdown/HTML預覽和遠端會話連續性，Composer 2.5在編碼代理指數上表現強勁。OpenAI還在移動端推出了Codex。

最後，Reddit社群聚焦於Qwen3.7的預告。Qwen團隊暗示即將推出更大規模的開源模型，包括122B和新的27B版本。Qwen3.7 Max在Artificial Analysis上排名第五，與GPT 5.4相當。使用者期待開源權重，同時關注Qwen是否解決了“過度思考”的問題。