艾米麗·本德澄清“隨機鸚鵡”的真正含義
華盛頓大學計算語言學教授艾米麗·本德在《隨機鸚鵡》論文發表五週年之際,澄清了關於該隱喻的常見誤解,並討論了人工智能術語的問題、語言模型的能力侷限以及被忽視的剝削性勞動實踐。
2021年3月,四位語言學家和計算機科學家發表了里程碑式的論文《論隨機鸚鵡的危險:語言模型能太大嗎?》。該論文指出,大型語言模型通過統計預測單詞序列生成文本,而非真正理解語義——作者用“隨機鸚鵡”這一比喻描述這種無理解重複模式的過程。五年來,該比喻已超越學術界,引發廣泛討論,甚至催生了名為“隨機鸚鵡”的肩扛式機器人項目。然而,廣泛使用也導致了誤解。
論文主要作者、華盛頓大學計算語言學教授艾米麗·本德近日撰寫博文,並在接受IEEE Spectrum採訪時澄清了這些誤解。她首先強調,“隨機鸚鵡”特指大型語言模型,而非所有AI系統。她指出,論文中“人工智能”一詞僅出現一次,且是在結尾處提醒人們注意系統可能被誤認為人類的風險。她從未聲稱棋類引擎、AlphaFold或圖像標註系統是隨機鸚鵡。
關於“人工智能”這個術語,本德認為它既將不同技術混為一談,又高估了每種技術的能力,不利於明智決策。她指出,如今AI在公眾討論中幾乎等同於聊天機器人或LLM,但與AlphaFold等工具截然不同。她承認,使用這個寬泛術語對科技公司和爭取研究資金有利,但總體上是負面效應。
本德還澄清了“隨機鸚鵡”並非侮辱。她使用章魚思想實驗、隨機鸚鵡和“合成文本擠出機”等表述,旨在讓非專業人士直觀理解系統的實際運作方式,而非貶低系統或其使用者。她透露章魚隱喻的靈感源於章魚生活環境的獨特性,且章魚本身更具趣味性。
當被問及論文中“隨機鸚鵡”一詞僅出現兩次時,本德表示這是為了標題的吸引力,論文重點在於大型語言模型的多重風險:環境影響、訓練數據偏見、數據收集問題等,合成文本只是其中之一。對於MIT媒體實驗室開發的“隨機鸚鵡”機器人(針對聊天機器人的諂媚行為),本德指出,這種諂媚行為源於預訓練後的額外訓練層,而論文寫作時聊天界面尚未出現。
本德最後強調,人們需要認識到,語言模型輸出文本的合理性源於我們自身的解讀能力。在評估此類技術時,必須考慮人類理解語言的能力。如果現在重寫論文,她會加入關於剝削性勞動實踐的內容,包括數據工人的惡劣工作條件以及系統對創作者智力成果的大規模剽竊。