它仍然幹不了我的工作:四年間不斷變化的標準(2022-2026)
文章追溯了AI程式設計能力從2022年11月ChatGPT釋出到2026年期間,懷疑論者不斷抬高標準的歷史。作者記錄了AI在簡單遊戲、考試、真實軟體專案、生產環境等方面的進步,但每當AI達到一個里程碑,批評者又會提出新的要求。文章以幽默的方式指出,儘管AI的能力不斷提升,但人們總是能找到理由說“它仍然幹不了我的工作”。
2022年11月,ChatGPT在週三釋出,到週末就擁有了百萬使用者。我的資訊流裡全是它為無法編譯的程式碼道歉的截圖。它虛構函式,甚至幻化出整個API。我讓它寫貪吃蛇——那個青少年時期花一個下午就能寫出來的遊戲——結果它第一步就把自己吃掉了。五天後,Stack Overflow禁止了它,理由是“從ChatGPT獲得正確答案的平均率太低,釋出由其建立的答案對網站有實質性危害”。當時的結論顯而易見:一個隨機鸚鵡,學會了像資深開發者那樣說話,卻從未真正見過編譯器。
但到了2023年3月,GPT-4來了。一個提示就能生成能玩的貪吃蛇——四個月前它還在這個任務上栽了跟頭。評論區的標準立刻調整,從未放緩:“玩具指令碼和考試不能算工程。等它真正構建出像樣的東西再說吧。比如一個真正的3D遊戲。”
2024年3月,一家名為Cognition的初創公司釋出了Devin,號稱“首位AI軟體工程師”。演示影片風靡一週,但隨後資深開發者Carl Brown逐幀分析發現,那些令人印象深刻的場景都是精心編排的。同月,輝達CEO黃仁勳在迪拜聲稱“程式語言就是人類語言,世界上每個人現在都是程式設計師”。但沒人真的辭職,不過每個人都悄悄裝上了Copilot。
到2024年10月,Google CEO桑達爾·皮查伊透露,Google超過四分之一的新程式碼由AI生成,經工程師稽核後採納。評論區依然不為所動:“生成程式碼行不等於工作。等它真正接受任務並交付功能再說。”
2025年2月,Andrej Karpathy提出了“氛圍編碼”(vibe coding)的概念。三週後,Pieter Levels用三個小時提示出了多人3D飛行模擬器,他沒有任何遊戲開發經驗。這個專案在17天內實現了100萬美元的年化收入。但與此同時,洩露的API金鑰和敞開的資料庫引發了安全災難。批評者指出:“原型可以,但等它真正進入生產環境並存活下來再說。”
2025年7月,METR研究小組讓16名經驗豐富的開源開發者使用AI工具,結果發現他們反而慢了19%,雖然他們自認為快了20%。同月,OpenAI和Google DeepMind在國際數學奧林匹克中各自用簡單語言解決了六道題中的五道,且速度符合人類時限。兩件事同時發生,但很少有人願意正視這一點。
到了2026年,AI代理已經能無人值守地執行數小時,自動建立拉取請求併合並。你本週可能就在不知不覺中審查過這樣的請求。Stack Overflow的問題量回到了我學程式設計時的水平,不是因為問題得到了解答,而是因為沒人再問論壇了。
或許當前的標準還會維持一段時間。但我想指出的是,上面的每一個標準都曾牢不可破——大約維持了18個月。下一個標準呢?等它處理我們的遺留程式碼庫?等它能被問責?等它知道該構建什麼,而不僅僅是知道如何構建?
文章最後預測了未來:2027年一個提示生成完整開放世界遊戲,2028年AI重構15年遺留系統,2030年AI處理尋呼機,2033年AI從零創辦公司達到十億美元估值。每個階段都有新的標準等著被跨越。