AI News HubLIVE
站内改写2 分钟阅读

AI正在使新闻语言变得更加重复和可预测——这对我们所有人来说都是个问题

随着越来越多的新闻内容由机器生成,语言正变得同质化,失去创新性。研究表明,AI模型在自生成文本上训练会导致“模型崩溃”,进一步缩小公共语言的多样性。这不仅影响新闻业,也削弱了社会描述和讨论现实的能力。

来源AIhub作者: The Conversation

随着生成式AI在新闻业中的广泛应用,一个关键问题浮现:当越来越多的新闻内容由机器编写时,语言本身会发生什么变化?这个问题不仅关乎新闻职业的未来,更影响我们所有人用来理解、描述和讨论现实的语言丰富性。

历史上,新闻业一直是公共语言生长和丰富的空间。报纸和网络媒体不仅是信息传播的渠道,也是新词汇、新表达方式在社会中流通的起点。研究表明,新闻语言是创造和传播新术语的重要平台,尤其是在报道新事件、技术变革和社会变迁时。然而,如果大量新闻写作被委托给生成式AI,这一角色将逐渐削弱。

大型语言模型(LLM)通过预测下一个“标记”或词语来生成流畅、可信的文本,但这使其倾向于统计规律性和常见的既定表达。当这种逻辑主导公共领域的写作时,问题就出现了。更深层次的危险在于AI系统开始用AI生成的文本训练自身,这会导致“模型崩溃”——模型产出的内容污染后续训练数据,使得AI系统越来越多地从合成文本中学习。如果这些合成文本充斥线上和线下公共空间,未来训练的语言生态将更加受限,与社会变化接触的机会减少。

这种趋势不仅导致语言多样性的下降,还会固化现有偏见。当数据变化减少、既定模式占主导时,训练材料中的偏见可能被强化而非纠正。同时,写作变得更加重复和同质化,重复句法结构,趋向中性语气、公式化表达和可预测的段落结构。新闻业不仅传递信息,还调节专业与通俗之间的转换、决定重点、翻译词汇并教授表达形式。当公共语言过于统一时,新闻业精细调整写作以应对新信息的能力将受到限制。

最终,不常见或专业词汇、罕见结构以及语用细微差别(如讽刺、歧义和观点变化)会减少。语言创新往往始于偶然的偏差、不寻常的用词或局部命名新现象的方式。如果系统总是偏爱统计上最可能的选项,新兴语言流通和扎根的空间就会缩小。这不是人与机器的抽象对立,而是语言暴露于人类社会的偶然事件与源于预学习规律性的文本输出之间的具体差异。

语言变得模糊、可预测或重复,会削弱社会描述问题、澄清观点和进行公共辩论的能力。互联网充斥着合成文本时,读者、记者和机构都将暴露于更单一的公共语言中。部分研究将合成文本描述为“污染”在线生态系统,强调混合真实数据与人工数据的方式至关重要。

然而,并非所有AI使用都必然导致衰退。研究表明,当合成数据与真实数据混合而非完全替代时,模型崩溃的行为不同,误差可控。问题不在于偶尔使用AI或合理结合合成与人类数据,而在于大规模用AI取代人类写作,并将其替代产物当作活的语言重新利用。

当AI成为记者工作的一部分,新闻业变得更加高效,但社会将失去什么?如果新闻业放弃其撰写、翻译、命名和教授新语言的角色,不仅影响记者日常工作,还会削弱公共语言丰富、更新和扩展的空间。