【AINews】OpenAI GPT-next 花不到1000美元推翻80年历史的Erdős平面单位距离问题
今日AI新闻汇总:OpenAI的通用推理模型在不到1000美元的成本下推翻了著名的Erdős平面单位距离问题,获得数学家高度认可;Cohere发布Command A+开源模型,采用Apache 2.0许可;Google推出Gemini 3.5 Flash和Omni等多款更新;多项基准测试显示当前AI代理在复杂工程任务中仍表现不佳。
文章情报
要点
- OpenAI内部模型以低于1000美元的计算成本否定了Erdős平面单位距离问题,这是通用AI解决公开数学难题的里程碑。
- Cohere发布Command A+作为Apache 2.0开源模型,约218B MoE参数,可在2×H100上运行。
- Google I/O后续:Gemini 3.5 Flash免费开放,Gemini Omni主打多模态创作,AI Studio强化开发工具。
- InferenceBench等基准显示前沿代理在系统级工程任务中不如简单基线,记忆系统平均准确率仅27.9%。
为什么重要
这条新闻值得关注,因为OpenAI内部模型以低于1000美元的计算成本否定了Erdős平面单位距离问题,这是通用AI解决公开数学难题的里程碑。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
今日AI领域迎来多项重大进展,其中OpenAI在数学问题上的突破尤为引人注目。据OpenAI宣布,其内部的一个通用推理模型(外界猜测为GPT-5.6)在不到32小时、成本低于1000美元的情况下,成功否定了1946年提出的Erdős平面单位距离问题。这一成果不仅具有数学意义,更因为它出自通用模型而非专门的数学系统(如AlphaProof),从而为AI在科学领域的广泛应用带来了希望。OpenAI研究员Hongxun Wu称这是内部推理LLM在“最难问题”上的里程碑。著名数学家Timothy Gowers表示,这是第一个真正清晰的AI解决著名开放数学问题的例子。OpenAI强调,该模型并非全力运行,未来将向公众开放。输出长达125页,其中“第39页”引发了特别关注。
在模型开放方面,Cohere今天发布了Command A+,采用Apache 2.0开源许可。这是Cohere首个完全开放的Apache 2模型,参数规模约为218B MoE(25B活跃),支持多模态和48种语言,并且可以在低至2×H100的硬件上运行。社区反应积极,认为这是向更开放的企业级模型迈出的重要一步。基准测试显示,Command A+在Artificial Analysis智能指数上得分为37,接近Claude 4.5 Haiku水平,尤其在非幻觉表现上出色,但科学推理和编码能力弱于顶级模型。其架构选择也引发了讨论,包括并行Transformer块、大量共享专家、LayerNorm而非RMSNorm等。
Google继续推进I/O大会后的更新。Gemini 3.5 Flash在Gemini应用中全球免费开放,Google称其为最强的代理和编码模型,速度是同类模型的4倍,成本不到一半。但外部评价更为谨慎,有人质疑其实际性价比。Gemini Omni则更受好评,作为多模态对话模型,它支持视频编辑和混合输入工作流。此外,AI Studio加强了端到端开发工作流,Science Skills整合了30多个生命科学数据源。
在代理和基准测试方面,多项新基准揭示了前沿模型的局限性。InferenceBench聚焦AI研究自动化,结果显示当前代理在系统级工程、依赖管理和广泛探索上表现不佳,甚至不如简单的vLLM/SGLang超参数调优基线。Terminal-Bench Science将代理评估扩展到科学工作流。MINTEval测试长上下文记忆系统,平均准确率仅27.9%,表明记忆需要专门的学习子系统而非简单的RAG。ThoughtTrace发布大规模用户思维标注数据集,可提升用户行为预测41.7%。
检索基础设施方面,Perplexity推出了查询感知的上下文压缩系统,可减少70%的上下文令牌同时提升答案质量;Weaviate 1.37增加了MMR重排序;SID-1作为RL训练的代理搜索模型,召回率是RAG+重排序的1.9倍,速度快24倍,成本低99%。
开发者工具方面,Cursor、VS Code和Codex均有更新。Cursor在代理工作区添加了自动化功能,VS Code改进了Markdown/HTML预览和远程会话连续性,Composer 2.5在编码代理指数上表现强劲。OpenAI还在移动端推出了Codex。
最后,Reddit社区聚焦于Qwen3.7的预告。Qwen团队暗示即将推出更大规模的开源模型,包括122B和新的27B版本。Qwen3.7 Max在Artificial Analysis上排名第五,与GPT 5.4相当。用户期待开源权重,同时关注Qwen是否解决了“过度思考”的问题。