2025-11-19 00:55 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

从GPT-3到Gemini 3：三年AI进化之路

作者通过对比三年前的ChatGPT和如今的Gemini 3，展示了AI从聊天机器人到智能代理的飞跃。Gemini 3不仅能编写代码、创建游戏，还能自主进行博士级研究，标志着‘数字同事’时代的来临。

来源One Useful Thing作者: Ethan Mollick

自ChatGPT发布至今已近三年。三年前，AI刚刚能写出连贯的段落或一首关于水獭的滑稽诗；而今天，Google的Gemini 3不仅能编写代码，还能自主构建一个完整的交互式游戏，并模拟出“糖果驱动的超光速飞船”。这不仅仅是技术指标的提升，更代表了AI能力的根本性转变。

Gemini 3的强大之处不仅在于其基准测试成绩。在本文中，作者通过一个简单的提示“展示自从那篇帖子以来AI走了多远”，Gemini 3立即回应并创建了一个可玩的游戏——这是一个从描述到实现的飞跃。三年前AI只能描述发动机，如今AI可以编码发动机、设计界面，让用户亲自驾驶飞船。

更引人注目的是Google同步推出的Antigravity代理工具。不同于传统的聊天界面，Antigravity允许用户以自然语言向AI分配任务，AI则自主访问计算机、编写代码、执行操作，并在需要时请求批准。例如，作者让AI读取其所有新闻稿文件夹，并创建一个包含所有预测的网站，同时通过网页搜索检验预测的准确性。AI自主完成了文件分析、网站构建、浏览器测试等一系列工作，整个过程更像是管理一个团队成员，而非提示一个AI。

除了编码和代理能力，Gemini 3在需要真正判断力的任务上也令人惊讶。作者将十年前用于众筹研究的混乱数据文件交给Gemini 3，指示其“弄清楚数据和结构，进行初始清洗，然后准备新的分析”。AI不仅恢复了损坏的数据，还自主生成了原创研究假设，进行了统计测试，并最终产出了一份14页的论文。其中令人印象深刻的是，AI发明了一种通过自然语言处理衡量众筹想法独特性的指标，并自行编写代码执行验证。

当然，Gemini 3并非完美。在博士级研究任务中，它表现出类似人类研究生的优点和缺点：想法好，但统计方法需要改进，某些推论过度。当给予更多指导时，它显著改进。这提示我们，“博士级智能”已不再遥不可及。

结论是，三年前我们惊叹于机器能写诗；不到1000天后，我们却在与一个自主构建研究环境的代理讨论统计方法。聊天机器人的时代正让位于数字同事的时代。从“人类修复AI错误”到“人类指导AI工作”，这一转变可能比ChatGPT的发布本身更为重大。