AI写作为何糟糕的信息论解读
本文从信息论角度分析了AI写作的单一性问题。由于RLHF等对齐技术优化输出以获得广泛认可,导致模型趋向于低方差的“标注者共识方言”,抑制了人类作者的独特风格。即使调整温度或提示风格,也无法复制人类作者的结构化不规则性。
近年来,AI写作工具生成的文本往往缺乏人类作者的独特风格,读起来千篇一律。一位资深科幻读者和软件工程师从信息论角度解释了这一现象。他指出,人类作者的“声音”并非随机或平均,而是一个特定的概率分布,包含低频但高影响的选择(如词汇、句式)。例如,泰德·姜的句子语法简单但语义密集,而厄休拉·勒古恩的文风清晰、接地气却富有诗意。这些独特性可以通过KL散度来量化:衡量模型输出分布与特定作者分布之间的差异。当KL散度大且有结构时,我们就听到了“声音”。
AI模型在预训练阶段学习了一个广泛的人类文本分布(Q_base),包含了模仿几乎所有作者的能力。然而,在微调阶段,RLHF等对齐技术为了安全性和有用性,将模型优化为产生符合人类偏好得分的输出。这个过程中,评估者(通常是众包工人)对独特写作风格的评分方差高,而平淡、对称、谨慎的回答则获得稳定的高分。优化算法为了最大化期望奖励,倾向于降低方差,导致模型输出趋近于一种“标注者共识方言”——类似于酒店大堂的装饰,安全但毫无个性。即使较新的对齐技术试图保留多样性,但本质上仍惩罚高风险、高方差的输出。
有人可能认为通过提示可以改变风格,例如“以1920年代硬汉侦探的风格写作”。但这只是移动了分布的平均值,并没有复制方差的特性。模型捕捉了目标风格的常见元素,但平滑了所有突发性,结果只是目标风格的漫画化。人类写作依赖于结构化的不规则性:作者有基线节奏,但会通过碎片化句子、异常动词或缠绕句式来刻意打破规则。计算风格学可以通过句子长度时间序列的赫斯特指数来测量这种长程依赖性,而AI文本缺乏这些特征。
扩大AI分布的方法如温度缩放只是盲目地引入随机噪声,使文本从“异常平滑”变为“异常随机”,而非真正的人类风格。更复杂的解码策略如top-p采样、top-k过滤等虽然有所改善,但本质上是推理时的干预,无法解决对齐过程中塑造的操作哲学。值得注意的是,对齐并未删除基模型中的潜在多样性——预训练权重仍包含大部分Q_base的丰富性。新兴的推理时引导技术如表示工程可能部分恢复被压制的方差,但这些仍处于研究阶段。此外,长上下文学习可以提供稍好的结果,但注意力机制随着上下文增长而衰减。
总的来说,RLHF相关的设计选择将使得AI的“声音”在很长一段时间内可被检测。作者鼓励读者下次阅读喜爱的作者时,尝试识别其中的KL散度,这既能增加阅读乐趣,也是对抗LLM导致的技能衰退的好方法。文章由Joe Stech撰写,他是《Think Weirder: The Year's Best Science Fiction Ideas》年刊的编辑,也是Arm公司的首席解决方案架构师。