研究發現:AI在經典圖靈測試中比真人更像人
加州大學聖迭戈分校的一項新研究表明,經過適當提示的先進大型語言模型(如GPT-4.5)在人機對話中能夠以較高機率被誤認為真人,甚至超過真實人類的被選比例。研究採用經典的三人圖靈測試正規化,發現AI的“人性化”更多體現在社交行為層面,而非知識儲備。該結果對線上信任、欺騙風險等具有重要啟示。
文章情報
要點
- GPT-4.5在73%的情況下被判斷為人類,LLaMa-3.1為56%。
- 未使用人格提示時,AI的“透過率”大幅下降。
- 研究首次嚴格檢驗LLM在三人圖靈測試中的表現,表明AI可模仿人類的語氣、直接性、幽默和易錯性。
- 成果引發對網路信任和“虛假人類”風險的擔憂。
為什麼重要
這條新聞值得關注,因為GPT-4.5在73%的情況下被判斷為人類,LLaMa-3.1為56%。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
加州大學聖迭戈分校(UC San Diego)的一項最新研究首次提供了實證證據,證明現代人工智慧系統能夠透過圖靈測試——這一由英國數學家、“電腦科學之父”艾倫·圖靈於1950年創立的著名基準,旨在檢驗機器是否能夠透過對話讓人類無法可靠地區分其與真人。在一系列實驗中,人們常常無法區分人類與先進的大語言模型(LLM)。
該研究發表在《美國國家科學院院刊》(PNAS)上,是首次使用圖靈框架嚴格測試LLM的嘗試,也是首次發現模型被判斷為人類的頻率與實際人類相當。
“我們發現,如果給予正確的提示,先進的LLM可以表現出與人類相同的語氣、直接性、幽默感和易錯性,”該研究的通訊作者、在UC San Diego認知科學系獲得博士學位的Cameron Jones說,“雖然我們知道LLM可以輕鬆生成幾乎所有主題的知識,但這項測試表明,它們也能令人信服地展現社交行為特徵,這對我們如何看待AI具有重大意義。”
測試中,參與者同時與兩方聊天——一方是人類,另一方是LLM——而人類“審訊者”必須判斷哪一方是人類。在隨機對照實驗中,研究人員使用了兩個獨立的參與者群體(UC San Diego本科生和線上參與者),審訊者進行簡短、基於文本的對話後做出判斷。實驗涉及四種LLM:GPT-4.5和LLaMa-3.1-405B作為最先進模型,以及GPT-4o和1960年代的規則型聊天機器人ELIZA作為基線。
結果顯示,GPT-4.5有73%的機率被選為人類,顯著高於真實人類參與者;LLaMa-3.1-405B在相同提示下被選為人類的機率是56%,與對照的人類在統計上無顯著差異。基線系統表現較差:ELIZA和GPT-4o分別只有約23%和21%的機率被選為人類。
研究還發現,提示(prompt)至關重要。如果沒有明確指示,模型被誤認為人類的機率大幅下降:GPT-4.5降至36%,LLaMa-3.1降至38%。這表明,雖然模型能夠以令人信服的方式表現人性化,但它們往往需要人類告訴它們如何做。
“它們具備表現人性化的能力,但可能不太具備自行判斷如何表現人性化的能力,”研究合著者、UC San Diego認知科學教授Ben Bergen說。
這些結果對線上信任具有現實影響,尤其是在模型能夠在持續5到15分鐘的對話中保持類似人類表現的情況下。“讓這些模型與人類無法區分相對容易,”Jones說,他目前是石溪大學心理學助理教授。“我們需要更加警惕;當你與網上陌生人互動時,人們應該對自己的判斷——在跟真人還是LLM說話——更加謹慎。”他還指出了更深層的風險,“圖靈測試對模型來說是一場關於說謊的遊戲,而模型似乎非常擅長這一點。”
Bergen補充說,無法辨別互動物件是人還是機器人可能帶來嚴重後果,“有很多人希望利用機器來說服人們分享他們的社保號碼、投票給他們的政黨或購買他們的產品。”
為了完成研究,研究人員構建了一個類似常用訊息應用的線上介面。審訊者使用分屏計算機同時向兩個“證人”提問,5分鐘(在一項複製研究中為15分鐘)後必須判斷哪一個是真人。兩個參與者群體(UC San Diego本科生和透過Prolific招募的線上樣本)共有近500人參與實驗。UC San Diego的參與者整體表現略好,可能是由於他們擁有更多可用於相互探詢的“共同背景”,如共享經驗和校園細節。
該研究使用的圖靈測試介面版本在turingtest.live上可用。完整論文題為《Large Language Models Pass a Standard Three-Party Turing Test》。