2026-06-21 13:45 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

AI的十万个为什么

作者探讨了区分人类写作与AI生成文本的难题，指出尽管LLM在统计上几乎无法与人类区分，但其准确定性导致大量重复内容，例如亚马逊上涌现的AI生成儿童书籍。作者认为，在非正式场合，直觉仍是识别AI内容的有用工具。

来源Hacker News AI作者: surprisetalk

关于如何区分人类撰写和AI生成的文本，这是技术圈内一个令人头疼的争论话题。批评者的质疑看似有理有据：从本质上讲，大型语言模型（LLM）是对人类语言交流的最先进统计建模。既然如此，模型生成的文本在统计测试下几乎应该与人类语言无法区分。

然而，作者认为这种争论并非总是出于善意，至少有一部分人是为了掩盖自己不当使用AI的行为而挑起讨论。但如果你真心相信这种观点，不妨看看下面这张拼贴图：在亚马逊网站搜索“100000 whys”，会出现大约150本儿童书籍的封面，其中不少还是畅销书。这些标题和封面本身并无异常，但明眼人一看便知，它们正是AI生成的“垃圾内容”（AI slop），如今正污染着亚马逊的许多非虚构类书籍类别。

这种现象的根源在于LLM的准确定性（quasi-deterministic）。当你给出相同的提示，比如“生成一本儿童参考书”，模型大约有80%的概率会产生功能上完全相同的输出。拼贴图中的相似性远不止标题的选择：例如，第一排所有封面的左上角都有一只咆哮的恐龙。数据中还有很多其他聚类，比如反复出现的红白相间卡通火箭、金毛犬、狮子等等。

这正是LLM写作的独特之处：并非模型个人的遣词造句习惯与我们不同，而是它们在面对几乎任何普通提示时，都会诉诸同一套复杂的手法。这是一种模糊信号，所以你绝不能因为实习生说“不是这个，是那个”就解雇他。但在更随意的场合，相信直觉是没问题的。实际上，随着内容生产的难度远低于内容消费，传统的在线互动模式正在瓦解，这种直觉正变得越来越重要。

附言：如果你正在用LLM自动化博客写作——没错，技术确实神奇，但你的出版物很可能需要改名为“100,000个为什么”。