2026-06-21 13:45 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

AI的十萬個為什麼

作者探討了區分人類寫作與AI生成文本的難題，指出儘管LLM在統計上幾乎無法與人類區分，但其準確定性導致大量重複內容，例如亞馬遜上湧現的AI生成兒童書籍。作者認為，在非正式場合，直覺仍是識別AI內容的有用工具。

來源Hacker News AI作者: surprisetalk

關於如何區分人類撰寫和AI生成的文本，這是技術圈內一個令人頭疼的爭論話題。批評者的質疑看似有理有據：從本質上講，大型語言模型（LLM）是對人類語言交流的最先進統計建模。既然如此，模型生成的文本在統計測試下幾乎應該與人類語言無法區分。

然而，作者認為這種爭論並非總是出於善意，至少有一部分人是為了掩蓋自己不當使用AI的行為而挑起討論。但如果你真心相信這種觀點，不妨看看下面這張拼貼圖：在亞馬遜網站搜尋“100000 whys”，會出現大約150本兒童書籍的封面，其中不少還是暢銷書。這些標題和封面本身並無異常，但明眼人一看便知，它們正是AI生成的“垃圾內容”（AI slop），如今正汙染著亞馬遜的許多非虛構類書籍類別。

這種現象的根源在於LLM的準確定性（quasi-deterministic）。當你給出相同的提示，比如“生成一本兒童參考書”，模型大約有80%的機率會產生功能上完全相同的輸出。拼貼圖中的相似性遠不止標題的選擇：例如，第一排所有封面的左上角都有一隻咆哮的恐龍。資料中還有很多其他聚類，比如反覆出現的紅白相間卡通火箭、金毛犬、獅子等等。

這正是LLM寫作的獨特之處：並非模型個人的遣詞造句習慣與我們不同，而是它們在面對幾乎任何普通提示時，都會訴諸同一套複雜的手法。這是一種模糊訊號，所以你絕不能因為實習生說“不是這個，是那個”就解僱他。但在更隨意的場合，相信直覺是沒問題的。實際上，隨著內容生產的難度遠低於內容消費，傳統的線上互動模式正在瓦解，這種直覺正變得越來越重要。

附言：如果你正在用LLM自動化部落格寫作——沒錯，技術確實神奇，但你的出版物很可能需要改名為“100,000個為什麼”。