研究发现:AI在经典图灵测试中比真人更像人
加州大学圣迭戈分校的一项新研究表明,经过适当提示的先进大型语言模型(如GPT-4.5)在人机对话中能够以较高概率被误认为真人,甚至超过真实人类的被选比例。研究采用经典的三人图灵测试范式,发现AI的“人性化”更多体现在社交行为层面,而非知识储备。该结果对在线信任、欺骗风险等具有重要启示。
文章情报
要点
- GPT-4.5在73%的情况下被判断为人类,LLaMa-3.1为56%。
- 未使用人格提示时,AI的“通过率”大幅下降。
- 研究首次严格检验LLM在三人图灵测试中的表现,表明AI可模仿人类的语气、直接性、幽默和易错性。
- 成果引发对网络信任和“虚假人类”风险的担忧。
为什么重要
这条新闻值得关注,因为GPT-4.5在73%的情况下被判断为人类,LLaMa-3.1为56%。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
加州大学圣迭戈分校(UC San Diego)的一项最新研究首次提供了实证证据,证明现代人工智能系统能够通过图灵测试——这一由英国数学家、“计算机科学之父”艾伦·图灵于1950年创立的著名基准,旨在检验机器是否能够通过对话让人类无法可靠地区分其与真人。在一系列实验中,人们常常无法区分人类与先进的大语言模型(LLM)。
该研究发表在《美国国家科学院院刊》(PNAS)上,是首次使用图灵框架严格测试LLM的尝试,也是首次发现模型被判断为人类的频率与实际人类相当。
“我们发现,如果给予正确的提示,先进的LLM可以表现出与人类相同的语气、直接性、幽默感和易错性,”该研究的通讯作者、在UC San Diego认知科学系获得博士学位的Cameron Jones说,“虽然我们知道LLM可以轻松生成几乎所有主题的知识,但这项测试表明,它们也能令人信服地展现社交行为特征,这对我们如何看待AI具有重大意义。”
测试中,参与者同时与两方聊天——一方是人类,另一方是LLM——而人类“审讯者”必须判断哪一方是人类。在随机对照实验中,研究人员使用了两个独立的参与者群体(UC San Diego本科生和在线参与者),审讯者进行简短、基于文本的对话后做出判断。实验涉及四种LLM:GPT-4.5和LLaMa-3.1-405B作为最先进模型,以及GPT-4o和1960年代的规则型聊天机器人ELIZA作为基线。
结果显示,GPT-4.5有73%的几率被选为人类,显著高于真实人类参与者;LLaMa-3.1-405B在相同提示下被选为人类的几率是56%,与对照的人类在统计上无显著差异。基线系统表现较差:ELIZA和GPT-4o分别只有约23%和21%的几率被选为人类。
研究还发现,提示(prompt)至关重要。如果没有明确指示,模型被误认为人类的几率大幅下降:GPT-4.5降至36%,LLaMa-3.1降至38%。这表明,虽然模型能够以令人信服的方式表现人性化,但它们往往需要人类告诉它们如何做。
“它们具备表现人性化的能力,但可能不太具备自行判断如何表现人性化的能力,”研究合著者、UC San Diego认知科学教授Ben Bergen说。
这些结果对在线信任具有现实影响,尤其是在模型能够在持续5到15分钟的对话中保持类似人类表现的情况下。“让这些模型与人类无法区分相对容易,”Jones说,他目前是石溪大学心理学助理教授。“我们需要更加警惕;当你与网上陌生人互动时,人们应该对自己的判断——在跟真人还是LLM说话——更加谨慎。”他还指出了更深层的风险,“图灵测试对模型来说是一场关于说谎的游戏,而模型似乎非常擅长这一点。”
Bergen补充说,无法辨别交互对象是人还是机器人可能带来严重后果,“有很多人希望利用机器来说服人们分享他们的社保号码、投票给他们的政党或购买他们的产品。”
为了完成研究,研究人员构建了一个类似常用消息应用的在线界面。审讯者使用分屏计算机同时向两个“证人”提问,5分钟(在一项复制研究中为15分钟)后必须判断哪一个是真人。两个参与者群体(UC San Diego本科生和通过Prolific招募的在线样本)共有近500人参与实验。UC San Diego的参与者整体表现略好,可能是由于他们拥有更多可用于相互探询的“共同背景”,如共享经验和校园细节。
该研究使用的图灵测试界面版本在turingtest.live上可用。完整论文题为《Large Language Models Pass a Standard Three-Party Turing Test》。