从GPT-3到Gemini 3:三年AI进化之路
作者通过对比三年前的ChatGPT和如今的Gemini 3,展示了AI从聊天机器人到智能代理的飞跃。Gemini 3不仅能编写代码、创建游戏,还能自主进行博士级研究,标志着‘数字同事’时代的来临。
自ChatGPT发布至今已近三年。三年前,AI刚刚能写出连贯的段落或一首关于水獭的滑稽诗;而今天,Google的Gemini 3不仅能编写代码,还能自主构建一个完整的交互式游戏,并模拟出“糖果驱动的超光速飞船”。这不仅仅是技术指标的提升,更代表了AI能力的根本性转变。
Gemini 3的强大之处不仅在于其基准测试成绩。在本文中,作者通过一个简单的提示“展示自从那篇帖子以来AI走了多远”,Gemini 3立即回应并创建了一个可玩的游戏——这是一个从描述到实现的飞跃。三年前AI只能描述发动机,如今AI可以编码发动机、设计界面,让用户亲自驾驶飞船。
更引人注目的是Google同步推出的Antigravity代理工具。不同于传统的聊天界面,Antigravity允许用户以自然语言向AI分配任务,AI则自主访问计算机、编写代码、执行操作,并在需要时请求批准。例如,作者让AI读取其所有新闻稿文件夹,并创建一个包含所有预测的网站,同时通过网页搜索检验预测的准确性。AI自主完成了文件分析、网站构建、浏览器测试等一系列工作,整个过程更像是管理一个团队成员,而非提示一个AI。
除了编码和代理能力,Gemini 3在需要真正判断力的任务上也令人惊讶。作者将十年前用于众筹研究的混乱数据文件交给Gemini 3,指示其“弄清楚数据和结构,进行初始清洗,然后准备新的分析”。AI不仅恢复了损坏的数据,还自主生成了原创研究假设,进行了统计测试,并最终产出了一份14页的论文。其中令人印象深刻的是,AI发明了一种通过自然语言处理衡量众筹想法独特性的指标,并自行编写代码执行验证。
当然,Gemini 3并非完美。在博士级研究任务中,它表现出类似人类研究生的优点和缺点:想法好,但统计方法需要改进,某些推论过度。当给予更多指导时,它显著改进。这提示我们,“博士级智能”已不再遥不可及。
结论是,三年前我们惊叹于机器能写诗;不到1000天后,我们却在与一个自主构建研究环境的代理讨论统计方法。聊天机器人的时代正让位于数字同事的时代。从“人类修复AI错误”到“人类指导AI工作”,这一转变可能比ChatGPT的发布本身更为重大。