AI News HubLIVE
站内改写2 分钟阅读

未来的迹象:GPT-5.5

作者提前体验了GPT-5.5,认为它标志着AI能力的重大进步,尤其是在编码、图像生成和综合应用方面。尽管模型变得更智能,应用和工具也大幅改进,但AI的“崎岖边界”依然存在,例如长篇虚构创作仍有不足。文章通过实例展示了GPT-5.5在模拟城市演变、生成学术论文和创建角色扮演游戏等方面的惊人能力。

来源One Useful Thing作者: Ethan Mollick

我提前体验了GPT-5.5,并认为这是一件大事。它之所以重大,是因为它表明AI的快速发展尚未结束。同时,它本身也非常出色。此外,即使有了这一切,AI能力的边界依然参差不齐。

随着AI变得更强,要快速展示每一代的变化越来越困难,因为许多过去AI不擅长的任务(如数学或单词字母计数)现在已变得轻而易举。因此,我将提供复杂的细节,但首先用一个简单的例子来说明。AI最擅长的是编码,于是我向从OpenAI首个推理模型o3(一年零一周前发布!)到当前最佳开源模型Kimi K2.6,再到新GPT-5.5 Pro的AI们提出了一个编码挑战:“为我构建一个程序化生成的3D模拟,展示一个港口城镇从公元前3000年到公元3000年的演变,它应该看起来美观,并允许我对其有一定控制。”

我将所有答案发布在一个图库中,供您尝试。只有GPT-5.5 Pro真正模拟了不断演变的城镇,而不是随时间生成替代建筑。GPT-5.5 Pro比前代更快:GPT-5.4 Pro完成该任务需要33分钟,而GPT-5.5 Pro只需20分钟。

模型、应用与工具

我一直鼓励大家将AI视为三个相互关联的概念:模型(如Opus 4.7、Gemini 3.1或GPT-5.5)、应用(如chatgpt.com、claude.ai等网站,以及Claude Code、OpenAI Codex等桌面应用)和工具(AI能使用的工具及其连接方式)。OpenAI在这三个方面都取得了进展。在模型方面,GPT-5.5是一个强大的模型家族,其中GPT-5.5 Pro最为全能。应用方面,OpenAI的Codex正追随Claude Code的步伐,成为一款易用的桌面应用。工具方面,最有趣的是OpenAI的新图像模型,它能生成高质量文本和几乎任何可描述的图片。

新图像模型可以绘制带文字的复杂场景,例如“一张水獭科学家在飞机上使用WiFi展示Otter测试的照片”,甚至能生成相应的学术论文页面。这一切在几个月前还不可能,但现在它们不仅酷炫,而且实用——可用于制作幻灯片、产品模型或示例网站。

综合应用

作为一位学者,我有很多未处理的众筹数据文件。我使用基于GPT-5.5的Codex请求:“帮我整理这些数据,生成一个有趣的假设,用复杂的方法进行检验,并写成一篇学术论文。”结果令人印象深刻,尤其是在我让GPT-5.5 Pro对论文进行评论并反馈给Codex之后。论文几乎完美,文献综述和统计都是真实的。但作为专家,我认为假设不够有趣,且存在因果问题。简而言之,如果这是二年级博士生的成果,我会非常满意,而我仅用了四个提示。

我还让Codex创建了一个全新的桌面角色扮演游戏,包括所有规则和表格,并模拟玩家体验以修订规则。AI生成了101页的PDF并配图。内容有趣且新颖,但仔细检查仍能发现AI能力的“崎岖边界”:长篇虚构创作仍显生硬,存在怪异隐喻、过度华丽的句子和人物对话风格单一等问题。

GPT-5.5表明模型越来越智能,应用越来越强大,工具越来越高效。我可以用四个提示获得接近博士水平的论文,或用一个提示得到可玩的角色扮演游戏。但虚构作品仍显扁平,假设有时无趣。然而,一年前这些都还遥不可及,而如今能力提升似乎在加速。GPT-5.5显然不是终点,而是值得注意的一步。三年来,每几个月就有新模型出现,不可能变为可能,且每次飞跃的幅度都在增长。崎岖的边界依然存在,只是比以往更远了。