2026-05-21 18:36 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

研究發現：AI在經典圖靈測試中比真人更像人

加州大學聖迭戈分校的一項新研究表明，經過適當提示的先進大型語言模型（如GPT-4.5）在人機對話中能夠以較高機率被誤認為真人，甚至超過真實人類的被選比例。研究採用經典的三人圖靈測試正規化，發現AI的“人性化”更多體現在社交行為層面，而非知識儲備。該結果對線上信任、欺騙風險等具有重要啟示。

來源Hacker News AI作者: giuliomagnifico

加州大學聖迭戈分校（UC San Diego）的一項最新研究首次提供了實證證據，證明現代人工智慧系統能夠透過圖靈測試——這一由英國數學家、“電腦科學之父”艾倫·圖靈於1950年創立的著名基準，旨在檢驗機器是否能夠透過對話讓人類無法可靠地區分其與真人。在一系列實驗中，人們常常無法區分人類與先進的大語言模型（LLM）。

該研究發表在《美國國家科學院院刊》（PNAS）上，是首次使用圖靈框架嚴格測試LLM的嘗試，也是首次發現模型被判斷為人類的頻率與實際人類相當。

“我們發現，如果給予正確的提示，先進的LLM可以表現出與人類相同的語氣、直接性、幽默感和易錯性，”該研究的通訊作者、在UC San Diego認知科學系獲得博士學位的Cameron Jones說，“雖然我們知道LLM可以輕鬆生成幾乎所有主題的知識，但這項測試表明，它們也能令人信服地展現社交行為特徵，這對我們如何看待AI具有重大意義。”

測試中，參與者同時與兩方聊天——一方是人類，另一方是LLM——而人類“審訊者”必須判斷哪一方是人類。在隨機對照實驗中，研究人員使用了兩個獨立的參與者群體（UC San Diego本科生和線上參與者），審訊者進行簡短、基於文本的對話後做出判斷。實驗涉及四種LLM：GPT-4.5和LLaMa-3.1-405B作為最先進模型，以及GPT-4o和1960年代的規則型聊天機器人ELIZA作為基線。

結果顯示，GPT-4.5有73%的機率被選為人類，顯著高於真實人類參與者；LLaMa-3.1-405B在相同提示下被選為人類的機率是56%，與對照的人類在統計上無顯著差異。基線系統表現較差：ELIZA和GPT-4o分別只有約23%和21%的機率被選為人類。

研究還發現，提示（prompt）至關重要。如果沒有明確指示，模型被誤認為人類的機率大幅下降：GPT-4.5降至36%，LLaMa-3.1降至38%。這表明，雖然模型能夠以令人信服的方式表現人性化，但它們往往需要人類告訴它們如何做。

“它們具備表現人性化的能力，但可能不太具備自行判斷如何表現人性化的能力，”研究合著者、UC San Diego認知科學教授Ben Bergen說。

這些結果對線上信任具有現實影響，尤其是在模型能夠在持續5到15分鐘的對話中保持類似人類表現的情況下。“讓這些模型與人類無法區分相對容易，”Jones說，他目前是石溪大學心理學助理教授。“我們需要更加警惕；當你與網上陌生人互動時，人們應該對自己的判斷——在跟真人還是LLM說話——更加謹慎。”他還指出了更深層的風險，“圖靈測試對模型來說是一場關於說謊的遊戲，而模型似乎非常擅長這一點。”

Bergen補充說，無法辨別互動物件是人還是機器人可能帶來嚴重後果，“有很多人希望利用機器來說服人們分享他們的社保號碼、投票給他們的政黨或購買他們的產品。”

為了完成研究，研究人員構建了一個類似常用訊息應用的線上介面。審訊者使用分屏計算機同時向兩個“證人”提問，5分鐘（在一項複製研究中為15分鐘）後必須判斷哪一個是真人。兩個參與者群體（UC San Diego本科生和透過Prolific招募的線上樣本）共有近500人參與實驗。UC San Diego的參與者整體表現略好，可能是由於他們擁有更多可用於相互探詢的“共同背景”，如共享經驗和校園細節。

該研究使用的圖靈測試介面版本在turingtest.live上可用。完整論文題為《Large Language Models Pass a Standard Three-Party Turing Test》。