AI News HubLIVE
站內改寫2 分鐘閱讀

從GPT-3到Gemini 3:三年AI進化之路

作者透過對比三年前的ChatGPT和如今的Gemini 3,展示了AI從聊天機器人到智慧代理的飛躍。Gemini 3不僅能編寫程式碼、建立遊戲,還能自主進行博士級研究,標誌著‘數字同事’時代的來臨。

來源One Useful Thing作者: Ethan Mollick

自ChatGPT釋出至今已近三年。三年前,AI剛剛能寫出連貫的段落或一首關於水獺的滑稽詩;而今天,Google的Gemini 3不僅能編寫程式碼,還能自主構建一個完整的互動式遊戲,並模擬出“糖果驅動的超光速飛船”。這不僅僅是技術指標的提升,更代表了AI能力的根本性轉變。

Gemini 3的強大之處不僅在於其基準測試成績。在本文中,作者透過一個簡單的提示“展示自從那篇帖子以來AI走了多遠”,Gemini 3立即回應並建立了一個可玩的遊戲——這是一個從描述到實現的飛躍。三年前AI只能描述發動機,如今AI可以編碼發動機、設計介面,讓使用者親自駕駛飛船。

更引人注目的是Google同步推出的Antigravity代理工具。不同於傳統的聊天介面,Antigravity允許使用者以自然語言向AI分配任務,AI則自主訪問計算機、編寫程式碼、執行操作,並在需要時請求批准。例如,作者讓AI讀取其所有新聞稿資料夾,並建立一個包含所有預測的網站,同時透過網頁搜尋檢驗預測的準確性。AI自主完成了檔案分析、網站構建、瀏覽器測試等一系列工作,整個過程更像是管理一個團隊成員,而非提示一個AI。

除了編碼和代理能力,Gemini 3在需要真正判斷力的任務上也令人驚訝。作者將十年前用於眾籌研究的混亂資料檔案交給Gemini 3,指示其“弄清楚資料和結構,進行初始清洗,然後準備新的分析”。AI不僅恢復了損壞的資料,還自主生成了原創研究假設,進行了統計測試,並最終產出了一份14頁的論文。其中令人印象深刻的是,AI發明了一種透過自然語言處理衡量眾籌想法獨特性的指標,並自行編寫程式碼執行驗證。

當然,Gemini 3並非完美。在博士級研究任務中,它表現出類似人類研究生的優點和缺點:想法好,但統計方法需要改進,某些推論過度。當給予更多指導時,它顯著改進。這提示我們,“博士級智慧”已不再遙不可及。

結論是,三年前我們驚歎於機器能寫詩;不到1000天后,我們卻在與一個自主構建研究環境的代理討論統計方法。聊天機器人的時代正讓位於數字同事的時代。從“人類修復AI錯誤”到“人類指導AI工作”,這一轉變可能比ChatGPT的釋出本身更為重大。