【AINews】OpenAI GPT-next 花不到1000美元推翻80年曆史的Erdős平面單位距離問題
今日AI新聞彙總:OpenAI的通用推理模型在不到1000美元的成本下推翻了著名的Erdős平面單位距離問題,獲得數學家高度認可;Cohere釋出Command A+開源模型,採用Apache 2.0許可;Google推出Gemini 3.5 Flash和Omni等多款更新;多項基準測試顯示當前AI代理在複雜工程任務中仍表現不佳。
文章情報
要點
- OpenAI內部模型以低於1000美元的計算成本否定了Erdős平面單位距離問題,這是通用AI解決公開數學難題的里程碑。
- Cohere釋出Command A+作為Apache 2.0開源模型,約218B MoE引數,可在2×H100上執行。
- Google I/O後續:Gemini 3.5 Flash免費開放,Gemini Omni主打多模態創作,AI Studio強化開發工具。
- InferenceBench等基準顯示前沿代理在系統級工程任務中不如簡單基線,記憶系統平均準確率僅27.9%。
為什麼重要
這條新聞值得關注,因為OpenAI內部模型以低於1000美元的計算成本否定了Erdős平面單位距離問題,這是通用AI解決公開數學難題的里程碑。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
今日AI領域迎來多項重大進展,其中OpenAI在數學問題上的突破尤為引人注目。據OpenAI宣佈,其內部的一個通用推理模型(外界猜測為GPT-5.6)在不到32小時、成本低於1000美元的情況下,成功否定了1946年提出的Erdős平面單位距離問題。這一成果不僅具有數學意義,更因為它出自通用模型而非專門的數學系統(如AlphaProof),從而為AI在科學領域的廣泛應用帶來了希望。OpenAI研究員Hongxun Wu稱這是內部推理LLM在“最難問題”上的里程碑。著名數學家Timothy Gowers表示,這是第一個真正清晰的AI解決著名開放數學問題的例子。OpenAI強調,該模型並非全力執行,未來將向公眾開放。輸出長達125頁,其中“第39頁”引發了特別關注。
在模型開放方面,Cohere今天釋出了Command A+,採用Apache 2.0開源許可。這是Cohere首個完全開放的Apache 2模型,引數規模約為218B MoE(25B活躍),支援多模態和48種語言,並且可以在低至2×H100的硬體上執行。社群反應積極,認為這是向更開放的企業級模型邁出的重要一步。基準測試顯示,Command A+在Artificial Analysis智慧指數上得分為37,接近Claude 4.5 Haiku水平,尤其在非幻覺表現上出色,但科學推理和編碼能力弱於頂級模型。其架構選擇也引發了討論,包括並行Transformer塊、大量共享專家、LayerNorm而非RMSNorm等。
Google繼續推進I/O大會後的更新。Gemini 3.5 Flash在Gemini應用中全球免費開放,Google稱其為最強的代理和編碼模型,速度是同類模型的4倍,成本不到一半。但外部評價更為謹慎,有人質疑其實際價效比。Gemini Omni則更受好評,作為多模態對話模型,它支援影片編輯和混合輸入工作流。此外,AI Studio加強了端到端開發工作流,Science Skills整合了30多個生命科學資料來源。
在代理和基準測試方面,多項新基準揭示了前沿模型的侷限性。InferenceBench聚焦AI研究自動化,結果顯示當前代理在系統級工程、依賴管理和廣泛探索上表現不佳,甚至不如簡單的vLLM/SGLang超引數調優基線。Terminal-Bench Science將代理評估擴充套件到科學工作流。MINTEval測試長上下文記憶系統,平均準確率僅27.9%,表明記憶需要專門的學習子系統而非簡單的RAG。ThoughtTrace釋出大規模使用者思維標註資料集,可提升使用者行為預測41.7%。
檢索基礎設施方面,Perplexity推出了查詢感知的上下文壓縮系統,可減少70%的上下文令牌同時提升答案質量;Weaviate 1.37增加了MMR重排序;SID-1作為RL訓練的代理搜尋模型,召回率是RAG+重排序的1.9倍,速度快24倍,成本低99%。
開發者工具方面,Cursor、VS Code和Codex均有更新。Cursor在代理工作區新增了自動化功能,VS Code改進了Markdown/HTML預覽和遠端會話連續性,Composer 2.5在編碼代理指數上表現強勁。OpenAI還在移動端推出了Codex。
最後,Reddit社群聚焦於Qwen3.7的預告。Qwen團隊暗示即將推出更大規模的開源模型,包括122B和新的27B版本。Qwen3.7 Max在Artificial Analysis上排名第五,與GPT 5.4相當。使用者期待開源權重,同時關注Qwen是否解決了“過度思考”的問題。