2026-05-21 15:28 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

【AINews】OpenAI GPT-next 花不到1000美元推翻80年历史的Erdős平面单位距离问题

今日AI新闻汇总：OpenAI的通用推理模型在不到1000美元的成本下推翻了著名的Erdős平面单位距离问题，获得数学家高度认可；Cohere发布Command A+开源模型，采用Apache 2.0许可；Google推出Gemini 3.5 Flash和Omni等多款更新；多项基准测试显示当前AI代理在复杂工程任务中仍表现不佳。

来源Latent Space

文章情报

工程师进阶

要点

OpenAI内部模型以低于1000美元的计算成本否定了Erdős平面单位距离问题，这是通用AI解决公开数学难题的里程碑。
Cohere发布Command A+作为Apache 2.0开源模型，约218B MoE参数，可在2×H100上运行。
Google I/O后续：Gemini 3.5 Flash免费开放，Gemini Omni主打多模态创作，AI Studio强化开发工具。
InferenceBench等基准显示前沿代理在系统级工程任务中不如简单基线，记忆系统平均准确率仅27.9%。

为什么重要

这条新闻值得关注，因为OpenAI内部模型以低于1000美元的计算成本否定了Erdős平面单位距离问题，这是通用AI解决公开数学难题的里程碑。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

今日AI领域迎来多项重大进展，其中OpenAI在数学问题上的突破尤为引人注目。据OpenAI宣布，其内部的一个通用推理模型（外界猜测为GPT-5.6）在不到32小时、成本低于1000美元的情况下，成功否定了1946年提出的Erdős平面单位距离问题。这一成果不仅具有数学意义，更因为它出自通用模型而非专门的数学系统（如AlphaProof），从而为AI在科学领域的广泛应用带来了希望。OpenAI研究员Hongxun Wu称这是内部推理LLM在“最难问题”上的里程碑。著名数学家Timothy Gowers表示，这是第一个真正清晰的AI解决著名开放数学问题的例子。OpenAI强调，该模型并非全力运行，未来将向公众开放。输出长达125页，其中“第39页”引发了特别关注。

在模型开放方面，Cohere今天发布了Command A+，采用Apache 2.0开源许可。这是Cohere首个完全开放的Apache 2模型，参数规模约为218B MoE（25B活跃），支持多模态和48种语言，并且可以在低至2×H100的硬件上运行。社区反应积极，认为这是向更开放的企业级模型迈出的重要一步。基准测试显示，Command A+在Artificial Analysis智能指数上得分为37，接近Claude 4.5 Haiku水平，尤其在非幻觉表现上出色，但科学推理和编码能力弱于顶级模型。其架构选择也引发了讨论，包括并行Transformer块、大量共享专家、LayerNorm而非RMSNorm等。

Google继续推进I/O大会后的更新。Gemini 3.5 Flash在Gemini应用中全球免费开放，Google称其为最强的代理和编码模型，速度是同类模型的4倍，成本不到一半。但外部评价更为谨慎，有人质疑其实际性价比。Gemini Omni则更受好评，作为多模态对话模型，它支持视频编辑和混合输入工作流。此外，AI Studio加强了端到端开发工作流，Science Skills整合了30多个生命科学数据源。

在代理和基准测试方面，多项新基准揭示了前沿模型的局限性。InferenceBench聚焦AI研究自动化，结果显示当前代理在系统级工程、依赖管理和广泛探索上表现不佳，甚至不如简单的vLLM/SGLang超参数调优基线。Terminal-Bench Science将代理评估扩展到科学工作流。MINTEval测试长上下文记忆系统，平均准确率仅27.9%，表明记忆需要专门的学习子系统而非简单的RAG。ThoughtTrace发布大规模用户思维标注数据集，可提升用户行为预测41.7%。

检索基础设施方面，Perplexity推出了查询感知的上下文压缩系统，可减少70%的上下文令牌同时提升答案质量；Weaviate 1.37增加了MMR重排序；SID-1作为RL训练的代理搜索模型，召回率是RAG+重排序的1.9倍，速度快24倍，成本低99%。

开发者工具方面，Cursor、VS Code和Codex均有更新。Cursor在代理工作区添加了自动化功能，VS Code改进了Markdown/HTML预览和远程会话连续性，Composer 2.5在编码代理指数上表现强劲。OpenAI还在移动端推出了Codex。

最后，Reddit社区聚焦于Qwen3.7的预告。Qwen团队暗示即将推出更大规模的开源模型，包括122B和新的27B版本。Qwen3.7 Max在Artificial Analysis上排名第五，与GPT 5.4相当。用户期待开源权重，同时关注Qwen是否解决了“过度思考”的问题。