AI News HubLIVE
站內改寫1 分鐘閱讀

AI的十萬個為什麼

作者探討了區分人類寫作與AI生成文本的難題,指出儘管LLM在統計上幾乎無法與人類區分,但其準確定性導致大量重複內容,例如亞馬遜上湧現的AI生成兒童書籍。作者認為,在非正式場合,直覺仍是識別AI內容的有用工具。

來源Hacker News AI作者: surprisetalk

關於如何區分人類撰寫和AI生成的文本,這是技術圈內一個令人頭疼的爭論話題。批評者的質疑看似有理有據:從本質上講,大型語言模型(LLM)是對人類語言交流的最先進統計建模。既然如此,模型生成的文本在統計測試下幾乎應該與人類語言無法區分。

然而,作者認為這種爭論並非總是出於善意,至少有一部分人是為了掩蓋自己不當使用AI的行為而挑起討論。但如果你真心相信這種觀點,不妨看看下面這張拼貼圖:在亞馬遜網站搜尋“100000 whys”,會出現大約150本兒童書籍的封面,其中不少還是暢銷書。這些標題和封面本身並無異常,但明眼人一看便知,它們正是AI生成的“垃圾內容”(AI slop),如今正汙染著亞馬遜的許多非虛構類書籍類別。

這種現象的根源在於LLM的準確定性(quasi-deterministic)。當你給出相同的提示,比如“生成一本兒童參考書”,模型大約有80%的機率會產生功能上完全相同的輸出。拼貼圖中的相似性遠不止標題的選擇:例如,第一排所有封面的左上角都有一隻咆哮的恐龍。資料中還有很多其他聚類,比如反覆出現的紅白相間卡通火箭、金毛犬、獅子等等。

這正是LLM寫作的獨特之處:並非模型個人的遣詞造句習慣與我們不同,而是它們在面對幾乎任何普通提示時,都會訴諸同一套複雜的手法。這是一種模糊訊號,所以你絕不能因為實習生說“不是這個,是那個”就解僱他。但在更隨意的場合,相信直覺是沒問題的。實際上,隨著內容生產的難度遠低於內容消費,傳統的線上互動模式正在瓦解,這種直覺正變得越來越重要。

附言:如果你正在用LLM自動化部落格寫作——沒錯,技術確實神奇,但你的出版物很可能需要改名為“100,000個為什麼”。