艾米丽·本德澄清“随机鹦鹉”的真正含义
华盛顿大学计算语言学教授艾米丽·本德在《随机鹦鹉》论文发表五周年之际,澄清了关于该隐喻的常见误解,并讨论了人工智能术语的问题、语言模型的能力局限以及被忽视的剥削性劳动实践。
2021年3月,四位语言学家和计算机科学家发表了里程碑式的论文《论随机鹦鹉的危险:语言模型能太大吗?》。该论文指出,大型语言模型通过统计预测单词序列生成文本,而非真正理解语义——作者用“随机鹦鹉”这一比喻描述这种无理解重复模式的过程。五年来,该比喻已超越学术界,引发广泛讨论,甚至催生了名为“随机鹦鹉”的肩扛式机器人项目。然而,广泛使用也导致了误解。
论文主要作者、华盛顿大学计算语言学教授艾米丽·本德近日撰写博文,并在接受IEEE Spectrum采访时澄清了这些误解。她首先强调,“随机鹦鹉”特指大型语言模型,而非所有AI系统。她指出,论文中“人工智能”一词仅出现一次,且是在结尾处提醒人们注意系统可能被误认为人类的风险。她从未声称棋类引擎、AlphaFold或图像标注系统是随机鹦鹉。
关于“人工智能”这个术语,本德认为它既将不同技术混为一谈,又高估了每种技术的能力,不利于明智决策。她指出,如今AI在公众讨论中几乎等同于聊天机器人或LLM,但与AlphaFold等工具截然不同。她承认,使用这个宽泛术语对科技公司和争取研究资金有利,但总体上是负面效应。
本德还澄清了“随机鹦鹉”并非侮辱。她使用章鱼思想实验、随机鹦鹉和“合成文本挤出机”等表述,旨在让非专业人士直观理解系统的实际运作方式,而非贬低系统或其使用者。她透露章鱼隐喻的灵感源于章鱼生活环境的独特性,且章鱼本身更具趣味性。
当被问及论文中“随机鹦鹉”一词仅出现两次时,本德表示这是为了标题的吸引力,论文重点在于大型语言模型的多重风险:环境影响、训练数据偏见、数据收集问题等,合成文本只是其中之一。对于MIT媒体实验室开发的“随机鹦鹉”机器人(针对聊天机器人的谄媚行为),本德指出,这种谄媚行为源于预训练后的额外训练层,而论文写作时聊天界面尚未出现。
本德最后强调,人们需要认识到,语言模型输出文本的合理性源于我们自身的解读能力。在评估此类技术时,必须考虑人类理解语言的能力。如果现在重写论文,她会加入关于剥削性劳动实践的内容,包括数据工人的恶劣工作条件以及系统对创作者智力成果的大规模剽窃。