AI News HubLIVE
站内改写4 分钟阅读

下一部伟大的小说可能是由AI写的吗(而你能分辨出来吗)?

随着使用大型语言模型的指控震动文学和媒体界,语言学家解释了人类语言与机器语言的真正区别,而包括詹妮弗·伊根和珍妮特·温特森在内的小说家则思考了在ChatGPT时代小说的未来。

来源The Guardian AI作者: David Shariatmadari

你能从三篇酒店评论中看出哪篇是AI写的吗?兰开斯特大学法医语言学教授克莱尔·哈达克指出,大多数人在这类判断中只有约60%的正确率。她的在线测试“Bot or Not”要求用户在15条评论中找出伪造品。这种中等的成功率可能会让那些自信能一眼识别AI写作的人感到惊讶。当今年五月有质疑称贾米尔·纳齐尔的获奖短篇小说真实性时,社交媒体用户迅速谴责。“如果你懂,你就懂,”一位用户评论道。

哈达克表示,她的受访者倾向于依赖一些简单的规则来识别AI语言,包括陈词滥调的存在和破折号的使用。“三的法则”——即单词或短语以令人满意的三重奏排列——也被认为是AI的标志。“人们学会了非常简单的规则集,然后到处疯狂应用。”

但问题在于:这些“标志”也是人类写作的特征,毕竟大型语言模型正是基于人类写作训练而成。“你可以回到查尔斯·狄更斯,说他有AI,因为他用了长破折号。”而自从尤利乌斯·凯撒说出“Veni, vidi, vici”以来,演说家们就知道三的法则。在我们酒店评论的例子中,只有第一篇是真实的,你猜对了吗?

也许正因为难以确定,怀疑已成为日常。在文学界,对AI使用的指控困扰着作家,其合理程度不一。处女作恐怖小说《害羞的女孩》被出版商Hachette撤回,因为网上流传作者依赖AI的谣言,作者予以否认;史蒂文·罗森鲍姆的《真理的未来》——一本关于“AI如何重塑现实”的严肃研究——被发现包含大量幻觉引用,作者在道歉中承认。

包括《卫报》在内的媒体机构收到越来越多关于所谓AI生成文本的投诉。这些投诉包括对特定措辞的直觉,以及对拼写和语法错误的评论。在一个案例中,“after”一词被无意重复。“我无法想象人类编辑/校对会忽略这样的错误,”一位读者写道,显示出对我们编辑能力的感人信任。

问题在于,不仅AI基于人类写作训练,人类也在风格上受到AI影响,这种互动创造了一种语言上的“镜子迷宫”。除非作者承认,否则很难确定某篇作品是否由AI写成。这种不确定性是偏执的温床。

而如果你倾向于使用商业检测工具来区分人类和机器,那也伴随着不确定性,哈达克说。“鉴于我们中有些人自然写作的方式可能看起来像AI”——她提到神经多样性人群——“那会被检测为AI。而且你可以修改AI输出使其看起来更像人类。将那种内容放入AI检测器,你会得到古怪的结果。”作为在法庭上担任过专家证人的人,她对检测工具的效力“极为怀疑”。

新近流行的检测器Pangram自称误报率约为万分之一,独立测试显示其检测AI写作十分有效,即使AI文本经过“人性化”应用处理。但问题依然存在。我首次尝试就骗过了它,通过模仿一种夸张的语气,这种语气既可能是AI的特性,也可能是天生夸张的人——或者更准确地说,是深受ChatGPT、Claude和Gemini等LLM输出影响的作家。那越来越成为我们所有人。

如今每天都有大量AI文本被发表——从广告文案到学术摘要再到小说。同时,通过自动生成的邮件建议、“AI概述”搜索结果以及聊天机器人回应,AI越来越笼罩我们的生活。在这种暴露水平下,问题不再是AI是否改变语言——无论是我们说话还是写作的方式——而是如何改变。我们应该抵制还是拥抱它?

我们早已知晓LLM生成的文本平均而言可能与人类写作略有不同。通常只有当你查看大量材料时才会变得明显。一位目光敏锐的研究人员在2024年搜索科学论文数据库后,将“delve”一词的突然流行与LLM联系起来。AI倾向于过度使用的其他“焦点词”包括“showcase”、“boast”、“underscore”、“garner”、“align”、“surpass”和“intricate”。但同样,任何单篇作品都可能完全无辜地使用这些词汇。

更复杂的是,一些研究人员认为“delve”现象可能并非源于模型本身,而是承担评估和引导任务的人类工作者,这一过程称为“基于人类反馈的强化学习”。对于“薪酬低、压力大、时间紧”的工人来说,“某些词被视为质量的代理”,模型无意中被训练得更常用这些词。换句话说,“delve”的崛起可能是因为它看起来不像AI会使用的词。(另一种说法认为它更常见是因为它是尼日利亚英语的特点,那里有许多RLHF工作者,但数据并不支持。)

还有其他模式可区分:LLM喜欢名词,但使用代词较少。这或许反映了它们不像我们这些社会性生物那样谈论自己或他人。它们喜欢定语形容词(“不舒服的椅子”),而不喜欢表语形容词(“椅子不舒服”),也许是因为它们更喜欢以小而密的包裹传递信息,而我们则喜欢铺陈。不同模型有明确的特质——甚至可称为“方言”:Gemini喜欢说“here's a breakdown”,而Deepseek常以愉快的“Certainly!”回应。当被要求编辑来自世界各地的正式英语时,AI倾向于向英美标准扁平化和同质化,研究人员称之为“文化幽灵”。因此,印度职业英语中完全可接受的“Kindly do the needful & revert back at the earliest”被“修正”为“Please complete the task & respond promptly.”

LLM用语已逃逸到“现实”世界,改变人类在无AI环境下使用语言方式的证据正在涌现。一项研究分析了数千次即兴对话,发现在ChatGPT发布后,“delve”和“boast”等词的使用激增。另一项研究显示,在社交媒体上被点名后,学术摘要中“delve”的频率实际上有所下降,表明AI的影响可能以复杂方式发挥作用。

这一切重要吗?语言总在变化——词汇流行或过时,新技术一直是背后的力量之一。但AI似乎引发了特别高的焦虑。为什么?“我认为它让人害怕的是那种侵入意识、成为新人类的观念,”哈达克说。自2023年以来,她将Bot or Not项目扩展到语音和音乐,并注意到当人们享受的歌曲被证明是由机器创作和表演时,他们的反应有多强烈。

小说家加里·施泰恩加特在哥伦比亚大学教授创意写作,他注意到学生对AI文学的前景也有类似强烈感受。“当我的一名研究生说‘作为实验,我将用AI写这部分作品’时,其他学生非常愤怒,他们写信给我说这太糟糕了。”

“在读者和作者之间有一种隐性的契约,即你知道你得到的作品是由人类生成的,我认为这感觉像是对那种契约的侵犯,”他说。“阅读文学小说是一种不可思议的伏尔甘心灵融合,进入另一个人的意识。而AI则让我进入模拟的他人意识,隔了一层或多层。相比之下,这有多可悲?”

对哈达克来说,“我想它触及了我们如何看待自己的特殊性、价值和独特性。”同时,她使用的音乐生成模型“已经生成了一些绝对的杰作。我毫无讽刺地在车里听,而且非常喜欢。”

文学也会发生同样的情况吗?机器创作的小说有一天能否跻身史上最伟大的100部小说之列?诺丁汉大学文学语言学教授彼得·斯托克韦尔认为,AI或许能做到基本,但无法达到顶峰。“如果你想要非常熟悉、非常平庸、完全功能性的东西,它出奇地擅长。”

他提到,语言可以看作一系列层次,从单词开始,到短语、从句、复合句,一直到叙事结构。“AI在较低层次非常擅长。它学到了很多我们的句法结构,所以一切看起来都结构正确、语法无误。但越往上,它就越不擅长。”故事的弧线尤其难以令AI信服地呈现。

“如果你让AI写一个叙事,它可以很好地完成一系列事件并在结尾发生某事。但那不会是一个很值得讲述的叙事,”他继续说道。“不会发生令人吃惊或有趣的事。而如果有任何惊人之处,通常看起来像是错误,而不是出色的转折。”

伟大写作的秘诀仍然是秘密——甚至对研究它的学者也是如此。“语言学家实际上并不理解语言如何在更高层次运作,”在话语、讲故事、魅力层面。“我们无法建造一台机器去做我们不知道如何运作的事。”我们确实知道它可能归结于什么——那就是我们根本的社会性,以及与之相关的,我们是“湿件”——人类血肉,有肾上腺素飙升、多巴胺涌动、对社会接触的渴望,所有这些都在语言的结构和我们使用它的方式中得到表达。