未來的跡象:GPT-5.5
作者提前體驗了GPT-5.5,認為它標誌著AI能力的重大進步,尤其是在編碼、影像生成和綜合應用方面。儘管模型變得更智慧,應用和工具也大幅改進,但AI的“崎嶇邊界”依然存在,例如長篇虛構創作仍有不足。文章透過例項展示了GPT-5.5在模擬城市演變、生成學術論文和建立角色扮演遊戲等方面的驚人能力。
我提前體驗了GPT-5.5,並認為這是一件大事。它之所以重大,是因為它表明AI的快速發展尚未結束。同時,它本身也非常出色。此外,即使有了這一切,AI能力的邊界依然參差不齊。
隨著AI變得更強,要快速展示每一代的變化越來越困難,因為許多過去AI不擅長的任務(如數學或單詞字母計數)現在已變得輕而易舉。因此,我將提供複雜的細節,但首先用一個簡單的例子來說明。AI最擅長的是編碼,於是我向從OpenAI首個推理模型o3(一年零一週前釋出!)到當前最佳開源模型Kimi K2.6,再到新GPT-5.5 Pro的AI們提出了一個編碼挑戰:“為我構建一個程式化生成的3D模擬,展示一個港口城鎮從西元前3000年到西元3000年的演變,它應該看起來美觀,並允許我對其有一定控制。”
我將所有答案發布在一個相簿中,供您嘗試。只有GPT-5.5 Pro真正模擬了不斷演變的城鎮,而不是隨時間生成替代建築。GPT-5.5 Pro比前代更快:GPT-5.4 Pro完成該任務需要33分鐘,而GPT-5.5 Pro只需20分鐘。
模型、應用與工具
我一直鼓勵大家將AI視為三個相互關聯的概念:模型(如Opus 4.7、Gemini 3.1或GPT-5.5)、應用(如chatgpt.com、claude.ai等網站,以及Claude Code、OpenAI Codex等桌面應用)和工具(AI能使用的工具及其連線方式)。OpenAI在這三個方面都取得了進展。在模型方面,GPT-5.5是一個強大的模型家族,其中GPT-5.5 Pro最為全能。應用方面,OpenAI的Codex正追隨Claude Code的步伐,成為一款易用的桌面應用。工具方面,最有趣的是OpenAI的新影像模型,它能生成高質量文本和幾乎任何可描述的圖片。
新影像模型可以繪製帶文字的複雜場景,例如“一張水獺科學家在飛機上使用WiFi展示Otter測試的照片”,甚至能生成相應的學術論文頁面。這一切在幾個月前還不可能,但現在它們不僅酷炫,而且實用——可用於製作幻燈片、產品模型或示例網站。
綜合應用
作為一位學者,我有很多未處理的眾籌資料檔案。我使用基於GPT-5.5的Codex請求:“幫我整理這些資料,生成一個有趣的假設,用複雜的方法進行檢驗,並寫成一篇學術論文。”結果令人印象深刻,尤其是在我讓GPT-5.5 Pro對論文進行評論並反饋給Codex之後。論文幾乎完美,文獻綜述和統計都是真實的。但作為專家,我認為假設不夠有趣,且存在因果問題。簡而言之,如果這是二年級博士生的成果,我會非常滿意,而我僅用了四個提示。
我還讓Codex建立了一個全新的桌面角色扮演遊戲,包括所有規則和表格,並模擬玩家體驗以修訂規則。AI生成了101頁的PDF並配圖。內容有趣且新穎,但仔細檢查仍能發現AI能力的“崎嶇邊界”:長篇虛構創作仍顯生硬,存在怪異隱喻、過度華麗的句子和人物對話風格單一等問題。
GPT-5.5表明模型越來越智慧,應用越來越強大,工具越來越高效。我可以用四個提示獲得接近博士水平的論文,或用一個提示得到可玩的角色扮演遊戲。但虛構作品仍顯扁平,假設有時無趣。然而,一年前這些都還遙不可及,而如今能力提升似乎在加速。GPT-5.5顯然不是終點,而是值得注意的一步。三年來,每幾個月就有新模型出現,不可能變為可能,且每次飛躍的幅度都在增長。崎嶇的邊界依然存在,只是比以往更遠了。