AI News HubLIVE
站內改寫2 分鐘閱讀

從GPT-3到Gemini 3:三年AI進化之路

作者通過對比三年前的ChatGPT和如今的Gemini 3,展示了AI從聊天機器人到智能代理的飛躍。Gemini 3不僅能編寫代碼、創建遊戲,還能自主進行博士級研究,標誌着‘數字同事’時代的來臨。

來源One Useful Thing作者: Ethan Mollick

自ChatGPT發佈至今已近三年。三年前,AI剛剛能寫出連貫的段落或一首關於水獺的滑稽詩;而今天,Google的Gemini 3不僅能編寫代碼,還能自主構建一個完整的交互式遊戲,並模擬出“糖果驅動的超光速飛船”。這不僅僅是技術指標的提升,更代表了AI能力的根本性轉變。

Gemini 3的強大之處不僅在於其基準測試成績。在本文中,作者通過一個簡單的提示“展示自從那篇帖子以來AI走了多遠”,Gemini 3立即回應並創建了一個可玩的遊戲——這是一個從描述到實現的飛躍。三年前AI只能描述發動機,如今AI可以編碼發動機、設計界面,讓用户親自駕駛飛船。

更引人注目的是Google同步推出的Antigravity代理工具。不同於傳統的聊天界面,Antigravity允許用户以自然語言向AI分配任務,AI則自主訪問計算機、編寫代碼、執行操作,並在需要時請求批准。例如,作者讓AI讀取其所有新聞稿文件夾,並創建一個包含所有預測的網站,同時通過網頁搜索檢驗預測的準確性。AI自主完成了文件分析、網站構建、瀏覽器測試等一系列工作,整個過程更像是管理一個團隊成員,而非提示一個AI。

除了編碼和代理能力,Gemini 3在需要真正判斷力的任務上也令人驚訝。作者將十年前用於眾籌研究的混亂數據文件交給Gemini 3,指示其“弄清楚數據和結構,進行初始清洗,然後準備新的分析”。AI不僅恢復了損壞的數據,還自主生成了原創研究假設,進行了統計測試,並最終產出了一份14頁的論文。其中令人印象深刻的是,AI發明了一種通過自然語言處理衡量眾籌想法獨特性的指標,並自行編寫代碼執行驗證。

當然,Gemini 3並非完美。在博士級研究任務中,它表現出類似人類研究生的優點和缺點:想法好,但統計方法需要改進,某些推論過度。當給予更多指導時,它顯著改進。這提示我們,“博士級智能”已不再遙不可及。

結論是,三年前我們驚歎於機器能寫詩;不到1000天后,我們卻在與一個自主構建研究環境的代理討論統計方法。聊天機器人的時代正讓位於數字同事的時代。從“人類修復AI錯誤”到“人類指導AI工作”,這一轉變可能比ChatGPT的發佈本身更為重大。