2026-06-18站内改写4 分钟阅读更新: 2026-06-18

2026年上半年：AI的喧嚣与转向

2026年1月至6月，AI领域发生了大量事件，从新模型发布到行业呼吁暂停。本文回顾了重要事件，并分析了从聊天机器人到智能体的转变，以及由此带来的成本问题。

来源Hacker News AI作者: jtnl

回顾2026年1月至6月的AI新闻，我感受到的是各方面都在飞速发展，创新不断，但控制力不足。几乎每周都有新模型号称“改变一切”：GPT、Claude、某些中国模型在未知基准上击败所有人，视频生成达到前所未有的水平。

然而，本周发生了一件大家早有预料却不愿听到的事：在这场AI竞赛中领先的两家公司开始谈论放缓甚至暂停。

现在值得停下来看看实际发生了什么。

2026年1月至6月的实际事件

排除噪音，以下是一些重要事件的顺序：

一月下旬：Moonshot发布Kimi K2.5，这是一个开源多模态模型，具备“Agent Swarm”功能，可协调多达100个子代理。同时，2025年12月发布的GPT-5.2仍是衡量新模型的基准之一。
2月5日：Anthropic发布Claude Opus 4.6，几天后发布Claude Sonnet 4.6。
二月中旬：Google推出Gemini 3.1 Pro，进一步推动模型在推理、编程和长任务方面的能力。
二月下旬：Perplexity推出Computer系统，这是一个将任务分配给多个专门模型并连接外部应用的代理系统。
2月27日：根据路透社报道，唐纳德·特朗普下令逐步淘汰美国联邦机构中的Anthropic技术，原因是军事用途争端。五角大楼甚至将Anthropic标记为“供应链风险”。恐慌蔓延，但Anthropic坚持立场，赢得了不少赞赏。在商业领域，有人会填补空缺，OpenAI随即宣布与五角大楼达成协议。
3月5日：OpenAI发布GPT-5.4，具备原生电脑控制能力，API上下文窗口高达100万token（标准窗口为272,000 token），并将Codex功能集成到单一模型中。真正重要的不是上下文窗口大小，而是模型能自主驱动浏览器和桌面环境。这标志着从“回答问题的聊天机器人”向“实际执行任务的智能体”的转变。OpenAI还报告幻觉率比GPT-5.2降低33%。
4月2日：Google发布Gemma 4，这是Apache 2.0许可下的新开源模型系列，专为高级推理、代理和本地硬件运行而设计。
4月16日：Anthropic发布Claude Opus 4.7，采用新的分词器，相同文本可产生最多35%的token（根据内容在1.0到1.35倍之间）。
4月20日：Moonshot发布Kimi K2.6，上下文窗口256,000 token，Agent Swarm可协调多达300个子代理。
4月23日至24日：OpenAI推出GPT-5.5，几乎同时DeepSeek推出DeepSeek V4：专业版1.6万亿参数，开源Flash版，100万token上下文窗口。
5月19日：在Google I/O上，Google发布Gemini 3.5 Flash、Gemini Spark、Gemini Omni和Antigravity 2.0。方向明确：更少的聊天机器人，更多的智能体。Antigravity界面体现了Google的愿景和发展方向。
5月28日：Anthropic发布Claude Opus 4.8，这是Opus系列中一次异常快速的更新。它带来了动态工作流等功能。Anthropic称该模型比4.7更智能、更诚实，尤其在代码方面。还引入了Effort Control和Fast Mode选项。
6月1日：MiniMax发布MiniMax M3，这是一个开源多模态模型，上下文窗口达100万token，重点聚焦编程、代理和长任务。它试图定位为Claude和GPT的更便宜替代品。
6月1日：GitHub Copilot改变了计费模式。该服务取消了高级请求，转而通过GitHub AI Credits根据消耗的token数和使用的模型收费。基本功能仍然包含，每个计划有月度配额，但最强大的模型和智能体消耗积分很快。部分社区用户对价格感到震惊：一些人在几小时或几天内用完积分，估计维持相同使用速度需要数百美元。

即将到来：2026年8月2日，欧盟AI法案的大部分条款将生效，尽管存在一些例外和调整的时间表（尤其是高风险系统）。

如果只看这份列表，它看起来像一场竞赛。确实如此，但营销背后，真正的转变正在发生：我们讨论的不再只是聊天机器人，而是越来越多的智能体。这不是口号，而是快速成为现实。我们现在有：使用电脑的模型、协调不同工具的模型、能长时间工作而无需逐步指导的模型、能在整个代码库中移动而非只回答一次性问题的模型。GPT-5.4的电脑使用、Perplexity的Computer、Kimi的群组、Google的Antigravity、Claude日益偏向编程和长时间工作。

在现实中呢？有时结果确实令人印象深刻，即使是简单的演示也能让人震惊。但将这些工具应用于真实项目时，情况就不同了：技术债务、不完整的上下文、未经验证的决策，最终是没人愿意触碰的代码。因为智能体也会累积技术债务，基于部分上下文做出调用，或交付未经审查的解决方案。也许我们需要更深入地思考、更好地构建请求、编写更清晰的指令，并更明确地定义每个智能体的角色和界限。但有一点是明确的：得益于智能体、MCP和自动化，AI能让你更快构建、更深入探索某些主题，并浮现互联网上已存在的想法，从而推动进步。但人类的贡献仍然是独特、真实且更有价值的。

方向明确：我们不再仅走向“回答问题的助手”或角落里为所欲为的智能体，而是走向与我们互动、记住任务和错误以改进工作的系统。但代价是什么？GitHub Copilot的商业模式变化显示了AI竞赛的另一面：模型和智能体消耗大量资源，因此成本高昂。换言之，某些服务的无限量套餐开始消失。AI系统并非只发出一个请求并返回答案，它读取文件、传递上下文、调用工具、生成代码、运行测试、分析错误，然后重试。每一步都消耗token。只要这些都包含在月订阅中，用户就容易当作无限使用。但当计费直接取决于使用时，你的看法就会改变：在开始任务前你会三思。问题不再只是哪个模型最聪明或编码最好，你还需考虑成本、完成任务消耗的token数，以及该成本在项目上是否实际值得。GitHub Copilot或许向我们展示了高级AI使用无限计划的终结。

2026年中期的转折点：有人呼吁冷静

接下来变得有趣。Anthropic现在呼吁协调暂停，不是单方面的暂停，而是整个行业的协调。其论点是模型可能很快接近递归自我改进的阶段：系统能够以越来越少的人类参与来帮助改进其他系统。在达到这一步之前，最好有真正的控制、安全和验证机制。这听起来与Anthropic一贯的立场一致，但说实话，必须讲述完整故事。一些人也将此请求视为自私的举动。Anthropic仍在竞赛中，仍在发布新模型，估值仍在攀升。根据路透社报道，该公司今年还因放弃更明确的内部承诺而受到批评，该承诺原本会在达到特别危险的能力水平时停止某些训练运行。换言之，Anthropic在为自己争取更大空间后立即要求所有人放缓。请自行得出结论。

在OpenAI方面，Sam Altman也明显软化了语气。一年前他警告AI会消灭大量初级办公室工作。现在他承认自己“相当错误”：影响远小于他的预测。他并不孤单。Dario Amodei之前甚至谈到消除一半的办公室工作，现在表示自动化实际上可能扩展人们的能力。所以，流行观点不再是“AI会取代你的工作”，而是更令人不安但可能更现实的“AI会改变你工作中哪些部分具有价值”。这并非同一回事。

我从这六个月中学到的东西

在疯狂发布模型与同一批人现在谈论放缓之间的反差，说明了我们的处境。一方面，没人想落后；另一方面，越来越清楚我们不再只是谈论更快写邮件的新工具。我们谈论的是开始创建、修改和审计软件的模型，以及介入系统、决策、工作流、会计、公司运营甚至监管的模型。在这种背景下，仅凭当下的基准是不够的。并非所有发布都是新闻。并非所有“在基准Y上击败X”都能经受真实项目的考验。并非所有看起来革命性的演示都能改变开发者的日常。因此，我将继续关注这一切，但会带有过滤器。我会发布我认为真正重要的大模型和新玩家，在可能的情况下进行测试，不贩卖炒作。如果2026年上半年如此疯狂，下半年承诺同样如此，尤其是在能源消耗、token定价以及无限计划可能终结方面。我们需要密切关注。