AI News HubLIVE
站内改写4 分钟阅读

2026年上半年:AI的喧嚣与转向

2026年1月至6月,AI领域发生了大量事件,从新模型发布到行业呼吁暂停。本文回顾了重要事件,并分析了从聊天机器人到智能体的转变,以及由此带来的成本问题。

来源Hacker News AI作者: jtnl

回顾2026年1月至6月的AI新闻,我感受到的是各方面都在飞速发展,创新不断,但控制力不足。几乎每周都有新模型号称“改变一切”:GPT、Claude、某些中国模型在未知基准上击败所有人,视频生成达到前所未有的水平。

然而,本周发生了一件大家早有预料却不愿听到的事:在这场AI竞赛中领先的两家公司开始谈论放缓甚至暂停。

现在值得停下来看看实际发生了什么。

2026年1月至6月的实际事件

排除噪音,以下是一些重要事件的顺序:

  • 一月下旬:Moonshot发布Kimi K2.5,这是一个开源多模态模型,具备“Agent Swarm”功能,可协调多达100个子代理。同时,2025年12月发布的GPT-5.2仍是衡量新模型的基准之一。
  • 2月5日:Anthropic发布Claude Opus 4.6,几天后发布Claude Sonnet 4.6。
  • 二月中旬:Google推出Gemini 3.1 Pro,进一步推动模型在推理、编程和长任务方面的能力。
  • 二月下旬:Perplexity推出Computer系统,这是一个将任务分配给多个专门模型并连接外部应用的代理系统。
  • 2月27日:根据路透社报道,唐纳德·特朗普下令逐步淘汰美国联邦机构中的Anthropic技术,原因是军事用途争端。五角大楼甚至将Anthropic标记为“供应链风险”。恐慌蔓延,但Anthropic坚持立场,赢得了不少赞赏。在商业领域,有人会填补空缺,OpenAI随即宣布与五角大楼达成协议。
  • 3月5日:OpenAI发布GPT-5.4,具备原生电脑控制能力,API上下文窗口高达100万token(标准窗口为272,000 token),并将Codex功能集成到单一模型中。真正重要的不是上下文窗口大小,而是模型能自主驱动浏览器和桌面环境。这标志着从“回答问题的聊天机器人”向“实际执行任务的智能体”的转变。OpenAI还报告幻觉率比GPT-5.2降低33%。
  • 4月2日:Google发布Gemma 4,这是Apache 2.0许可下的新开源模型系列,专为高级推理、代理和本地硬件运行而设计。
  • 4月16日:Anthropic发布Claude Opus 4.7,采用新的分词器,相同文本可产生最多35%的token(根据内容在1.0到1.35倍之间)。
  • 4月20日:Moonshot发布Kimi K2.6,上下文窗口256,000 token,Agent Swarm可协调多达300个子代理。
  • 4月23日至24日:OpenAI推出GPT-5.5,几乎同时DeepSeek推出DeepSeek V4:专业版1.6万亿参数,开源Flash版,100万token上下文窗口。
  • 5月19日:在Google I/O上,Google发布Gemini 3.5 Flash、Gemini Spark、Gemini Omni和Antigravity 2.0。方向明确:更少的聊天机器人,更多的智能体。Antigravity界面体现了Google的愿景和发展方向。
  • 5月28日:Anthropic发布Claude Opus 4.8,这是Opus系列中一次异常快速的更新。它带来了动态工作流等功能。Anthropic称该模型比4.7更智能、更诚实,尤其在代码方面。还引入了Effort Control和Fast Mode选项。
  • 6月1日:MiniMax发布MiniMax M3,这是一个开源多模态模型,上下文窗口达100万token,重点聚焦编程、代理和长任务。它试图定位为Claude和GPT的更便宜替代品。
  • 6月1日:GitHub Copilot改变了计费模式。该服务取消了高级请求,转而通过GitHub AI Credits根据消耗的token数和使用的模型收费。基本功能仍然包含,每个计划有月度配额,但最强大的模型和智能体消耗积分很快。部分社区用户对价格感到震惊:一些人在几小时或几天内用完积分,估计维持相同使用速度需要数百美元。

即将到来:2026年8月2日,欧盟AI法案的大部分条款将生效,尽管存在一些例外和调整的时间表(尤其是高风险系统)。

如果只看这份列表,它看起来像一场竞赛。确实如此,但营销背后,真正的转变正在发生:我们讨论的不再只是聊天机器人,而是越来越多的智能体。这不是口号,而是快速成为现实。我们现在有:使用电脑的模型、协调不同工具的模型、能长时间工作而无需逐步指导的模型、能在整个代码库中移动而非只回答一次性问题的模型。GPT-5.4的电脑使用、Perplexity的Computer、Kimi的群组、Google的Antigravity、Claude日益偏向编程和长时间工作。

在现实中呢?有时结果确实令人印象深刻,即使是简单的演示也能让人震惊。但将这些工具应用于真实项目时,情况就不同了:技术债务、不完整的上下文、未经验证的决策,最终是没人愿意触碰的代码。因为智能体也会累积技术债务,基于部分上下文做出调用,或交付未经审查的解决方案。也许我们需要更深入地思考、更好地构建请求、编写更清晰的指令,并更明确地定义每个智能体的角色和界限。但有一点是明确的:得益于智能体、MCP和自动化,AI能让你更快构建、更深入探索某些主题,并浮现互联网上已存在的想法,从而推动进步。但人类的贡献仍然是独特、真实且更有价值的。

方向明确:我们不再仅走向“回答问题的助手”或角落里为所欲为的智能体,而是走向与我们互动、记住任务和错误以改进工作的系统。但代价是什么?GitHub Copilot的商业模式变化显示了AI竞赛的另一面:模型和智能体消耗大量资源,因此成本高昂。换言之,某些服务的无限量套餐开始消失。AI系统并非只发出一个请求并返回答案,它读取文件、传递上下文、调用工具、生成代码、运行测试、分析错误,然后重试。每一步都消耗token。只要这些都包含在月订阅中,用户就容易当作无限使用。但当计费直接取决于使用时,你的看法就会改变:在开始任务前你会三思。问题不再只是哪个模型最聪明或编码最好,你还需考虑成本、完成任务消耗的token数,以及该成本在项目上是否实际值得。GitHub Copilot或许向我们展示了高级AI使用无限计划的终结。

2026年中期的转折点:有人呼吁冷静

接下来变得有趣。Anthropic现在呼吁协调暂停,不是单方面的暂停,而是整个行业的协调。其论点是模型可能很快接近递归自我改进的阶段:系统能够以越来越少的人类参与来帮助改进其他系统。在达到这一步之前,最好有真正的控制、安全和验证机制。这听起来与Anthropic一贯的立场一致,但说实话,必须讲述完整故事。一些人也将此请求视为自私的举动。Anthropic仍在竞赛中,仍在发布新模型,估值仍在攀升。根据路透社报道,该公司今年还因放弃更明确的内部承诺而受到批评,该承诺原本会在达到特别危险的能力水平时停止某些训练运行。换言之,Anthropic在为自己争取更大空间后立即要求所有人放缓。请自行得出结论。

在OpenAI方面,Sam Altman也明显软化了语气。一年前他警告AI会消灭大量初级办公室工作。现在他承认自己“相当错误”:影响远小于他的预测。他并不孤单。Dario Amodei之前甚至谈到消除一半的办公室工作,现在表示自动化实际上可能扩展人们的能力。所以,流行观点不再是“AI会取代你的工作”,而是更令人不安但可能更现实的“AI会改变你工作中哪些部分具有价值”。这并非同一回事。

我从这六个月中学到的东西

在疯狂发布模型与同一批人现在谈论放缓之间的反差,说明了我们的处境。一方面,没人想落后;另一方面,越来越清楚我们不再只是谈论更快写邮件的新工具。我们谈论的是开始创建、修改和审计软件的模型,以及介入系统、决策、工作流、会计、公司运营甚至监管的模型。在这种背景下,仅凭当下的基准是不够的。并非所有发布都是新闻。并非所有“在基准Y上击败X”都能经受真实项目的考验。并非所有看起来革命性的演示都能改变开发者的日常。因此,我将继续关注这一切,但会带有过滤器。我会发布我认为真正重要的大模型和新玩家,在可能的情况下进行测试,不贩卖炒作。如果2026年上半年如此疯狂,下半年承诺同样如此,尤其是在能源消耗、token定价以及无限计划可能终结方面。我们需要密切关注。