2026-07-04 16:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-07-04 16:10 UTC+8

下一部偉大的小說可能是由AI寫的嗎（而你能分辨出來嗎）？

隨著使用大型語言模型的指控震動文學和媒體界，語言學家解釋了人類語言與機器語言的真正區別，而包括詹妮弗·伊根和珍妮特·溫特森在內的小說家則思考了在ChatGPT時代小說的未來。

來源The Guardian AI作者: David Shariatmadari

你能從三篇酒店評論中看出哪篇是AI寫的嗎？蘭開斯特大學法醫語言學教授克萊爾·哈達克指出，大多數人在這類判斷中只有約60%的正確率。她的線上測試“Bot or Not”要求使用者在15條評論中找出偽造品。這種中等的成功率可能會讓那些自信能一眼識別AI寫作的人感到驚訝。當今年五月有質疑稱賈米爾·納齊爾的獲獎短篇小說真實性時，社交媒體使用者迅速譴責。“如果你懂，你就懂，”一位使用者評論道。

哈達克表示，她的受訪者傾向於依賴一些簡單的規則來識別AI語言，包括陳詞濫調的存在和破折號的使用。“三的法則”——即單詞或短語以令人滿意的三重奏排列——也被認為是AI的標誌。“人們學會了非常簡單的規則集，然後到處瘋狂應用。”

但問題在於：這些“標誌”也是人類寫作的特徵，畢竟大型語言模型正是基於人類寫作訓練而成。“你可以回到查爾斯·狄更斯，說他有AI，因為他用了長破折號。”而自從尤利烏斯·凱撒說出“Veni, vidi, vici”以來，演說家們就知道三的法則。在我們酒店評論的例子中，只有第一篇是真實的，你猜對了嗎？

也許正因為難以確定，懷疑已成為日常。在文學界，對AI使用的指控困擾著作家，其合理程度不一。處女作恐怖小說《害羞的女孩》被出版商Hachette撤回，因為網上流傳作者依賴AI的謠言，作者予以否認；史蒂文·羅森鮑姆的《真理的未來》——一本關於“AI如何重塑現實”的嚴肅研究——被發現包含大量幻覺引用，作者在道歉中承認。

包括《衛報》在內的媒體機構收到越來越多關於所謂AI生成文本的投訴。這些投訴包括對特定措辭的直覺，以及對拼寫和語法錯誤的評論。在一個案例中，“after”一詞被無意重複。“我無法想象人類編輯/校對會忽略這樣的錯誤，”一位讀者寫道，顯示出對我們編輯能力的感人信任。

問題在於，不僅AI基於人類寫作訓練，人類也在風格上受到AI影響，這種互動創造了一種語言上的“鏡子迷宮”。除非作者承認，否則很難確定某篇作品是否由AI寫成。這種不確定性是偏執的溫床。

而如果你傾向於使用商業檢測工具來區分人類和機器，那也伴隨著不確定性，哈達克說。“鑑於我們中有些人自然寫作的方式可能看起來像AI”——她提到神經多樣性人群——“那會被檢測為AI。而且你可以修改AI輸出使其看起來更像人類。將那種內容放入AI檢測器，你會得到古怪的結果。”作為在法庭上擔任過專家證人的人，她對檢測工具的效力“極為懷疑”。

新近流行的檢測器Pangram自稱誤報率約為萬分之一，獨立測試顯示其檢測AI寫作十分有效，即使AI文本經過“人性化”應用處理。但問題依然存在。我首次嘗試就騙過了它，透過模仿一種誇張的語氣，這種語氣既可能是AI的特性，也可能是天生誇張的人——或者更準確地說，是深受ChatGPT、Claude和Gemini等LLM輸出影響的作家。那越來越成為我們所有人。

如今每天都有大量AI文本被髮表——從廣告文案到學術摘要再到小說。同時，透過自動生成的郵件建議、“AI概述”搜尋結果以及聊天機器人回應，AI越來越籠罩我們的生活。在這種暴露水平下，問題不再是AI是否改變語言——無論是我們說話還是寫作的方式——而是如何改變。我們應該抵制還是擁抱它？

我們早已知曉LLM生成的文本平均而言可能與人類寫作略有不同。通常只有當你檢視大量材料時才會變得明顯。一位目光敏銳的研究人員在2024年搜尋科學論文資料庫後，將“delve”一詞的突然流行與LLM聯絡起來。AI傾向於過度使用的其他“焦點詞”包括“showcase”、“boast”、“underscore”、“garner”、“align”、“surpass”和“intricate”。但同樣，任何單篇作品都可能完全無辜地使用這些詞彙。

更復雜的是，一些研究人員認為“delve”現象可能並非源於模型本身，而是承擔評估和引導任務的人類工作者，這一過程稱為“基於人類反饋的強化學習”。對於“薪酬低、壓力大、時間緊”的工人來說，“某些詞被視為質量的代理”，模型無意中被訓練得更常用這些詞。換句話說，“delve”的崛起可能是因為它看起來不像AI會使用的詞。（另一種說法認為它更常見是因為它是奈及利亞英語的特點，那裡有許多RLHF工作者，但資料並不支援。）

還有其他模式可區分：LLM喜歡名詞，但使用代詞較少。這或許反映了它們不像我們這些社會性生物那樣談論自己或他人。它們喜歡定語形容詞（“不舒服的椅子”），而不喜歡錶語形容詞（“椅子不舒服”），也許是因為它們更喜歡以小而密的包裹傳遞資訊，而我們則喜歡鋪陳。不同模型有明確的特質——甚至可稱為“方言”：Gemini喜歡說“here's a breakdown”，而Deepseek常以愉快的“Certainly!”回應。當被要求編輯來自世界各地的正式英語時，AI傾向於向英美標準扁平化和同質化，研究人員稱之為“文化幽靈”。因此，印度職業英語中完全可接受的“Kindly do the needful & revert back at the earliest”被“修正”為“Please complete the task & respond promptly.”

LLM用語已逃逸到“現實”世界，改變人類在無AI環境下使用語言方式的證據正在湧現。一項研究分析了數千次即興對話，發現在ChatGPT釋出後，“delve”和“boast”等詞的使用激增。另一項研究顯示，在社交媒體上被點名後，學術摘要中“delve”的頻率實際上有所下降，表明AI的影響可能以複雜方式發揮作用。

這一切重要嗎？語言總在變化——詞彙流行或過時，新技術一直是背後的力量之一。但AI似乎引發了特別高的焦慮。為什麼？“我認為它讓人害怕的是那種侵入意識、成為新人類的觀念，”哈達克說。自2023年以來，她將Bot or Not專案擴充套件到語音和音樂，並注意到當人們享受的歌曲被證明是由機器創作和表演時，他們的反應有多強烈。

小說家加里·施泰恩加特在哥倫比亞大學教授創意寫作，他注意到學生對AI文學的前景也有類似強烈感受。“當我的一名研究生說‘作為實驗，我將用AI寫這部分作品’時，其他學生非常憤怒，他們寫信給我說這太糟糕了。”

“在讀者和作者之間有一種隱性的契約，即你知道你得到的作品是由人類生成的，我認為這感覺像是對那種契約的侵犯，”他說。“閱讀文學小說是一種不可思議的伏爾甘心靈融合，進入另一個人的意識。而AI則讓我進入模擬的他人意識，隔了一層或多層。相比之下，這有多可悲？”

對哈達克來說，“我想它觸及了我們如何看待自己的特殊性、價值和獨特性。”同時，她使用的音樂生成模型“已經生成了一些絕對的傑作。我毫無諷刺地在車裡聽，而且非常喜歡。”

文學也會發生同樣的情況嗎？機器創作的小說有一天能否躋身史上最偉大的100部小說之列？諾丁漢大學文學語言學教授彼得·斯托克韋爾認為，AI或許能做到基本，但無法達到頂峰。“如果你想要非常熟悉、非常平庸、完全功能性的東西，它出奇地擅長。”

他提到，語言可以看作一系列層次，從單詞開始，到短語、從句、複合句，一直到敘事結構。“AI在較低層次非常擅長。它學到了很多我們的句法結構，所以一切看起來都結構正確、語法無誤。但越往上，它就越不擅長。”故事的弧線尤其難以令AI信服地呈現。

“如果你讓AI寫一個敘事，它可以很好地完成一系列事件並在結尾發生某事。但那不會是一個很值得講述的敘事，”他繼續說道。“不會發生令人吃驚或有趣的事。而如果有任何驚人之處，通常看起來像是錯誤，而不是出色的轉折。”

偉大寫作的秘訣仍然是秘密——甚至對研究它的學者也是如此。“語言學家實際上並不理解語言如何在更高層次運作，”在話語、講故事、魅力層面。“我們無法建造一臺機器去做我們不知道如何運作的事。”我們確實知道它可能歸結於什麼——那就是我們根本的社會性，以及與之相關的，我們是“溼件”——人類血肉，有腎上腺素飆升、多巴胺湧動、對社會接觸的渴望，所有這些都在語言的結構和我們使用它的方式中得到表達。