2026-07-03 23:02 UTC+8站内改写2 分钟阅读更新: 2026-07-03 23:38 UTC+8

它仍然干不了我的工作：四年间不断变化的标准（2022-2026）

文章追溯了AI编程能力从2022年11月ChatGPT发布到2026年期间，怀疑论者不断抬高标准的历史。作者记录了AI在简单游戏、考试、真实软件项目、生产环境等方面的进步，但每当AI达到一个里程碑，批评者又会提出新的要求。文章以幽默的方式指出，尽管AI的能力不断提升，但人们总是能找到理由说“它仍然干不了我的工作”。

来源Hacker News AI作者: mydreamof

2022年11月，ChatGPT在周三发布，到周末就拥有了百万用户。我的信息流里全是它为无法编译的代码道歉的截图。它虚构函数，甚至幻化出整个API。我让它写贪吃蛇——那个青少年时期花一个下午就能写出来的游戏——结果它第一步就把自己吃掉了。五天后，Stack Overflow禁止了它，理由是“从ChatGPT获得正确答案的平均率太低，发布由其创建的答案对网站有实质性危害”。当时的结论显而易见：一个随机鹦鹉，学会了像资深开发者那样说话，却从未真正见过编译器。

但到了2023年3月，GPT-4来了。一个提示就能生成能玩的贪吃蛇——四个月前它还在这个任务上栽了跟头。评论区的标准立刻调整，从未放缓：“玩具脚本和考试不能算工程。等它真正构建出像样的东西再说吧。比如一个真正的3D游戏。”

2024年3月，一家名为Cognition的初创公司发布了Devin，号称“首位AI软件工程师”。演示视频风靡一周，但随后资深开发者Carl Brown逐帧分析发现，那些令人印象深刻的场景都是精心编排的。同月，英伟达CEO黄仁勋在迪拜声称“编程语言就是人类语言，世界上每个人现在都是程序员”。但没人真的辞职，不过每个人都悄悄装上了Copilot。

到2024年10月，Google CEO桑达尔·皮查伊透露，Google超过四分之一的新代码由AI生成，经工程师审核后采纳。评论区依然不为所动：“生成代码行不等于工作。等它真正接受任务并交付功能再说。”

2025年2月，Andrej Karpathy提出了“氛围编码”（vibe coding）的概念。三周后，Pieter Levels用三个小时提示出了多人3D飞行模拟器，他没有任何游戏开发经验。这个项目在17天内实现了100万美元的年化收入。但与此同时，泄露的API密钥和敞开的数据库引发了安全灾难。批评者指出：“原型可以，但等它真正进入生产环境并存活下来再说。”

2025年7月，METR研究小组让16名经验丰富的开源开发者使用AI工具，结果发现他们反而慢了19%，虽然他们自认为快了20%。同月，OpenAI和Google DeepMind在国际数学奥林匹克中各自用简单语言解决了六道题中的五道，且速度符合人类时限。两件事同时发生，但很少有人愿意正视这一点。

到了2026年，AI代理已经能无人值守地运行数小时，自动创建拉取请求并合并。你本周可能就在不知不觉中审查过这样的请求。Stack Overflow的问题量回到了我学编程时的水平，不是因为问题得到了解答，而是因为没人再问论坛了。

或许当前的标准还会维持一段时间。但我想指出的是，上面的每一个标准都曾牢不可破——大约维持了18个月。下一个标准呢？等它处理我们的遗留代码库？等它能被问责？等它知道该构建什么，而不仅仅是知道如何构建？

文章最后预测了未来：2027年一个提示生成完整开放世界游戏，2028年AI重构15年遗留系统，2030年AI处理寻呼机，2033年AI从零创办公司达到十亿美元估值。每个阶段都有新的标准等着被跨越。