2026-05-21 18:36 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

研究发现：AI在经典图灵测试中比真人更像人

加州大学圣迭戈分校的一项新研究表明，经过适当提示的先进大型语言模型（如GPT-4.5）在人机对话中能够以较高概率被误认为真人，甚至超过真实人类的被选比例。研究采用经典的三人图灵测试范式，发现AI的“人性化”更多体现在社交行为层面，而非知识储备。该结果对在线信任、欺骗风险等具有重要启示。

来源Hacker News AI作者: giuliomagnifico

加州大学圣迭戈分校（UC San Diego）的一项最新研究首次提供了实证证据，证明现代人工智能系统能够通过图灵测试——这一由英国数学家、“计算机科学之父”艾伦·图灵于1950年创立的著名基准，旨在检验机器是否能够通过对话让人类无法可靠地区分其与真人。在一系列实验中，人们常常无法区分人类与先进的大语言模型（LLM）。

该研究发表在《美国国家科学院院刊》（PNAS）上，是首次使用图灵框架严格测试LLM的尝试，也是首次发现模型被判断为人类的频率与实际人类相当。

“我们发现，如果给予正确的提示，先进的LLM可以表现出与人类相同的语气、直接性、幽默感和易错性，”该研究的通讯作者、在UC San Diego认知科学系获得博士学位的Cameron Jones说，“虽然我们知道LLM可以轻松生成几乎所有主题的知识，但这项测试表明，它们也能令人信服地展现社交行为特征，这对我们如何看待AI具有重大意义。”

测试中，参与者同时与两方聊天——一方是人类，另一方是LLM——而人类“审讯者”必须判断哪一方是人类。在随机对照实验中，研究人员使用了两个独立的参与者群体（UC San Diego本科生和在线参与者），审讯者进行简短、基于文本的对话后做出判断。实验涉及四种LLM：GPT-4.5和LLaMa-3.1-405B作为最先进模型，以及GPT-4o和1960年代的规则型聊天机器人ELIZA作为基线。

结果显示，GPT-4.5有73%的几率被选为人类，显著高于真实人类参与者；LLaMa-3.1-405B在相同提示下被选为人类的几率是56%，与对照的人类在统计上无显著差异。基线系统表现较差：ELIZA和GPT-4o分别只有约23%和21%的几率被选为人类。

研究还发现，提示（prompt）至关重要。如果没有明确指示，模型被误认为人类的几率大幅下降：GPT-4.5降至36%，LLaMa-3.1降至38%。这表明，虽然模型能够以令人信服的方式表现人性化，但它们往往需要人类告诉它们如何做。

“它们具备表现人性化的能力，但可能不太具备自行判断如何表现人性化的能力，”研究合著者、UC San Diego认知科学教授Ben Bergen说。

这些结果对在线信任具有现实影响，尤其是在模型能够在持续5到15分钟的对话中保持类似人类表现的情况下。“让这些模型与人类无法区分相对容易，”Jones说，他目前是石溪大学心理学助理教授。“我们需要更加警惕；当你与网上陌生人互动时，人们应该对自己的判断——在跟真人还是LLM说话——更加谨慎。”他还指出了更深层的风险，“图灵测试对模型来说是一场关于说谎的游戏，而模型似乎非常擅长这一点。”

Bergen补充说，无法辨别交互对象是人还是机器人可能带来严重后果，“有很多人希望利用机器来说服人们分享他们的社保号码、投票给他们的政党或购买他们的产品。”

为了完成研究，研究人员构建了一个类似常用消息应用的在线界面。审讯者使用分屏计算机同时向两个“证人”提问，5分钟（在一项复制研究中为15分钟）后必须判断哪一个是真人。两个参与者群体（UC San Diego本科生和通过Prolific招募的在线样本）共有近500人参与实验。UC San Diego的参与者整体表现略好，可能是由于他们拥有更多可用于相互探询的“共同背景”，如共享经验和校园细节。

该研究使用的图灵测试界面版本在turingtest.live上可用。完整论文题为《Large Language Models Pass a Standard Three-Party Turing Test》。