AI News HubLIVE
站內改寫4 分鐘閱讀

下一部偉大的小說可能是由AI寫的嗎(而你能分辨出來嗎)?

隨著使用大型語言模型的指控震動文學和媒體界,語言學家解釋了人類語言與機器語言的真正區別,而包括詹妮弗·伊根和珍妮特·溫特森在內的小說家則思考了在ChatGPT時代小說的未來。

來源The Guardian AI作者: David Shariatmadari

你能從三篇酒店評論中看出哪篇是AI寫的嗎?蘭開斯特大學法醫語言學教授克萊爾·哈達克指出,大多數人在這類判斷中只有約60%的正確率。她的線上測試“Bot or Not”要求使用者在15條評論中找出偽造品。這種中等的成功率可能會讓那些自信能一眼識別AI寫作的人感到驚訝。當今年五月有質疑稱賈米爾·納齊爾的獲獎短篇小說真實性時,社交媒體使用者迅速譴責。“如果你懂,你就懂,”一位使用者評論道。

哈達克表示,她的受訪者傾向於依賴一些簡單的規則來識別AI語言,包括陳詞濫調的存在和破折號的使用。“三的法則”——即單詞或短語以令人滿意的三重奏排列——也被認為是AI的標誌。“人們學會了非常簡單的規則集,然後到處瘋狂應用。”

但問題在於:這些“標誌”也是人類寫作的特徵,畢竟大型語言模型正是基於人類寫作訓練而成。“你可以回到查爾斯·狄更斯,說他有AI,因為他用了長破折號。”而自從尤利烏斯·凱撒說出“Veni, vidi, vici”以來,演說家們就知道三的法則。在我們酒店評論的例子中,只有第一篇是真實的,你猜對了嗎?

也許正因為難以確定,懷疑已成為日常。在文學界,對AI使用的指控困擾著作家,其合理程度不一。處女作恐怖小說《害羞的女孩》被出版商Hachette撤回,因為網上流傳作者依賴AI的謠言,作者予以否認;史蒂文·羅森鮑姆的《真理的未來》——一本關於“AI如何重塑現實”的嚴肅研究——被發現包含大量幻覺引用,作者在道歉中承認。

包括《衛報》在內的媒體機構收到越來越多關於所謂AI生成文本的投訴。這些投訴包括對特定措辭的直覺,以及對拼寫和語法錯誤的評論。在一個案例中,“after”一詞被無意重複。“我無法想象人類編輯/校對會忽略這樣的錯誤,”一位讀者寫道,顯示出對我們編輯能力的感人信任。

問題在於,不僅AI基於人類寫作訓練,人類也在風格上受到AI影響,這種互動創造了一種語言上的“鏡子迷宮”。除非作者承認,否則很難確定某篇作品是否由AI寫成。這種不確定性是偏執的溫床。

而如果你傾向於使用商業檢測工具來區分人類和機器,那也伴隨著不確定性,哈達克說。“鑑於我們中有些人自然寫作的方式可能看起來像AI”——她提到神經多樣性人群——“那會被檢測為AI。而且你可以修改AI輸出使其看起來更像人類。將那種內容放入AI檢測器,你會得到古怪的結果。”作為在法庭上擔任過專家證人的人,她對檢測工具的效力“極為懷疑”。

新近流行的檢測器Pangram自稱誤報率約為萬分之一,獨立測試顯示其檢測AI寫作十分有效,即使AI文本經過“人性化”應用處理。但問題依然存在。我首次嘗試就騙過了它,透過模仿一種誇張的語氣,這種語氣既可能是AI的特性,也可能是天生誇張的人——或者更準確地說,是深受ChatGPT、Claude和Gemini等LLM輸出影響的作家。那越來越成為我們所有人。

如今每天都有大量AI文本被髮表——從廣告文案到學術摘要再到小說。同時,透過自動生成的郵件建議、“AI概述”搜尋結果以及聊天機器人回應,AI越來越籠罩我們的生活。在這種暴露水平下,問題不再是AI是否改變語言——無論是我們說話還是寫作的方式——而是如何改變。我們應該抵制還是擁抱它?

我們早已知曉LLM生成的文本平均而言可能與人類寫作略有不同。通常只有當你檢視大量材料時才會變得明顯。一位目光敏銳的研究人員在2024年搜尋科學論文資料庫後,將“delve”一詞的突然流行與LLM聯絡起來。AI傾向於過度使用的其他“焦點詞”包括“showcase”、“boast”、“underscore”、“garner”、“align”、“surpass”和“intricate”。但同樣,任何單篇作品都可能完全無辜地使用這些詞彙。

更復雜的是,一些研究人員認為“delve”現象可能並非源於模型本身,而是承擔評估和引導任務的人類工作者,這一過程稱為“基於人類反饋的強化學習”。對於“薪酬低、壓力大、時間緊”的工人來說,“某些詞被視為質量的代理”,模型無意中被訓練得更常用這些詞。換句話說,“delve”的崛起可能是因為它看起來不像AI會使用的詞。(另一種說法認為它更常見是因為它是奈及利亞英語的特點,那裡有許多RLHF工作者,但資料並不支援。)

還有其他模式可區分:LLM喜歡名詞,但使用代詞較少。這或許反映了它們不像我們這些社會性生物那樣談論自己或他人。它們喜歡定語形容詞(“不舒服的椅子”),而不喜歡錶語形容詞(“椅子不舒服”),也許是因為它們更喜歡以小而密的包裹傳遞資訊,而我們則喜歡鋪陳。不同模型有明確的特質——甚至可稱為“方言”:Gemini喜歡說“here's a breakdown”,而Deepseek常以愉快的“Certainly!”回應。當被要求編輯來自世界各地的正式英語時,AI傾向於向英美標準扁平化和同質化,研究人員稱之為“文化幽靈”。因此,印度職業英語中完全可接受的“Kindly do the needful & revert back at the earliest”被“修正”為“Please complete the task & respond promptly.”

LLM用語已逃逸到“現實”世界,改變人類在無AI環境下使用語言方式的證據正在湧現。一項研究分析了數千次即興對話,發現在ChatGPT釋出後,“delve”和“boast”等詞的使用激增。另一項研究顯示,在社交媒體上被點名後,學術摘要中“delve”的頻率實際上有所下降,表明AI的影響可能以複雜方式發揮作用。

這一切重要嗎?語言總在變化——詞彙流行或過時,新技術一直是背後的力量之一。但AI似乎引發了特別高的焦慮。為什麼?“我認為它讓人害怕的是那種侵入意識、成為新人類的觀念,”哈達克說。自2023年以來,她將Bot or Not專案擴充套件到語音和音樂,並注意到當人們享受的歌曲被證明是由機器創作和表演時,他們的反應有多強烈。

小說家加里·施泰恩加特在哥倫比亞大學教授創意寫作,他注意到學生對AI文學的前景也有類似強烈感受。“當我的一名研究生說‘作為實驗,我將用AI寫這部分作品’時,其他學生非常憤怒,他們寫信給我說這太糟糕了。”

“在讀者和作者之間有一種隱性的契約,即你知道你得到的作品是由人類生成的,我認為這感覺像是對那種契約的侵犯,”他說。“閱讀文學小說是一種不可思議的伏爾甘心靈融合,進入另一個人的意識。而AI則讓我進入模擬的他人意識,隔了一層或多層。相比之下,這有多可悲?”

對哈達克來說,“我想它觸及了我們如何看待自己的特殊性、價值和獨特性。”同時,她使用的音樂生成模型“已經生成了一些絕對的傑作。我毫無諷刺地在車裡聽,而且非常喜歡。”

文學也會發生同樣的情況嗎?機器創作的小說有一天能否躋身史上最偉大的100部小說之列?諾丁漢大學文學語言學教授彼得·斯托克韋爾認為,AI或許能做到基本,但無法達到頂峰。“如果你想要非常熟悉、非常平庸、完全功能性的東西,它出奇地擅長。”

他提到,語言可以看作一系列層次,從單詞開始,到短語、從句、複合句,一直到敘事結構。“AI在較低層次非常擅長。它學到了很多我們的句法結構,所以一切看起來都結構正確、語法無誤。但越往上,它就越不擅長。”故事的弧線尤其難以令AI信服地呈現。

“如果你讓AI寫一個敘事,它可以很好地完成一系列事件並在結尾發生某事。但那不會是一個很值得講述的敘事,”他繼續說道。“不會發生令人吃驚或有趣的事。而如果有任何驚人之處,通常看起來像是錯誤,而不是出色的轉折。”

偉大寫作的秘訣仍然是秘密——甚至對研究它的學者也是如此。“語言學家實際上並不理解語言如何在更高層次運作,”在話語、講故事、魅力層面。“我們無法建造一臺機器去做我們不知道如何運作的事。”我們確實知道它可能歸結於什麼——那就是我們根本的社會性,以及與之相關的,我們是“溼件”——人類血肉,有腎上腺素飆升、多巴胺湧動、對社會接觸的渴望,所有這些都在語言的結構和我們使用它的方式中得到表達。