它仍然干不了我的工作:四年间不断变化的标准(2022-2026)
文章追溯了AI编程能力从2022年11月ChatGPT发布到2026年期间,怀疑论者不断抬高标准的历史。作者记录了AI在简单游戏、考试、真实软件项目、生产环境等方面的进步,但每当AI达到一个里程碑,批评者又会提出新的要求。文章以幽默的方式指出,尽管AI的能力不断提升,但人们总是能找到理由说“它仍然干不了我的工作”。
2022年11月,ChatGPT在周三发布,到周末就拥有了百万用户。我的信息流里全是它为无法编译的代码道歉的截图。它虚构函数,甚至幻化出整个API。我让它写贪吃蛇——那个青少年时期花一个下午就能写出来的游戏——结果它第一步就把自己吃掉了。五天后,Stack Overflow禁止了它,理由是“从ChatGPT获得正确答案的平均率太低,发布由其创建的答案对网站有实质性危害”。当时的结论显而易见:一个随机鹦鹉,学会了像资深开发者那样说话,却从未真正见过编译器。
但到了2023年3月,GPT-4来了。一个提示就能生成能玩的贪吃蛇——四个月前它还在这个任务上栽了跟头。评论区的标准立刻调整,从未放缓:“玩具脚本和考试不能算工程。等它真正构建出像样的东西再说吧。比如一个真正的3D游戏。”
2024年3月,一家名为Cognition的初创公司发布了Devin,号称“首位AI软件工程师”。演示视频风靡一周,但随后资深开发者Carl Brown逐帧分析发现,那些令人印象深刻的场景都是精心编排的。同月,英伟达CEO黄仁勋在迪拜声称“编程语言就是人类语言,世界上每个人现在都是程序员”。但没人真的辞职,不过每个人都悄悄装上了Copilot。
到2024年10月,Google CEO桑达尔·皮查伊透露,Google超过四分之一的新代码由AI生成,经工程师审核后采纳。评论区依然不为所动:“生成代码行不等于工作。等它真正接受任务并交付功能再说。”
2025年2月,Andrej Karpathy提出了“氛围编码”(vibe coding)的概念。三周后,Pieter Levels用三个小时提示出了多人3D飞行模拟器,他没有任何游戏开发经验。这个项目在17天内实现了100万美元的年化收入。但与此同时,泄露的API密钥和敞开的数据库引发了安全灾难。批评者指出:“原型可以,但等它真正进入生产环境并存活下来再说。”
2025年7月,METR研究小组让16名经验丰富的开源开发者使用AI工具,结果发现他们反而慢了19%,虽然他们自认为快了20%。同月,OpenAI和Google DeepMind在国际数学奥林匹克中各自用简单语言解决了六道题中的五道,且速度符合人类时限。两件事同时发生,但很少有人愿意正视这一点。
到了2026年,AI代理已经能无人值守地运行数小时,自动创建拉取请求并合并。你本周可能就在不知不觉中审查过这样的请求。Stack Overflow的问题量回到了我学编程时的水平,不是因为问题得到了解答,而是因为没人再问论坛了。
或许当前的标准还会维持一段时间。但我想指出的是,上面的每一个标准都曾牢不可破——大约维持了18个月。下一个标准呢?等它处理我们的遗留代码库?等它能被问责?等它知道该构建什么,而不仅仅是知道如何构建?
文章最后预测了未来:2027年一个提示生成完整开放世界游戏,2028年AI重构15年遗留系统,2030年AI处理寻呼机,2033年AI从零创办公司达到十亿美元估值。每个阶段都有新的标准等着被跨越。