2026-07-06 03:21 UTC+8站内改写2 分钟阅读更新: 2026-07-06 03:44 UTC+8

AI能否进行事实核查？

本文探讨了AI在事实核查领域的应用与局限性。作者作为WIRED杂志的事实核查员，通过亲身测试发现，当前AI模型在事实核查任务中表现不佳，错误率高达30%-60%，且无法真正执行核查工作。文章指出，尽管AI工具如Full Fact可辅助处理海量数据，但人类核查员的判断力、对非数字化知识的依赖以及对历史信息的理解仍不可替代。最后，作者呼吁事实核查者应积极与AI互动，理解其优缺点，而非回避。

来源Hacker News AI作者: simianwords

在人工智能（AI）日益渗透各行各业的今天，一个自然产生的问题是：AI能否胜任事实核查这样的精细工作？WIRED杂志的事实核查员经过亲身测试和深入调研，给出了否定的答案。

传统的事实核查过程——逐行标注、依赖一手资料、进行伦理和法律审查——AI尚未真正触及。目前，AI更多应用于事后核查，如Full Fact这类工具通过处理社交媒体帖子、播客文字稿等海量数据来标记可疑声明，再交由人类进一步核实。正如Full Fact公共事务主管Mark Frankel所言：“最终你绝对需要人类。”

为什么人类不可或缺？因为AI依然频繁出错。作者作为专业核查员，发现谷歌AI概要有约三分之一的时间是不可用的。更系统的研究则显示更高的错误率：2025年3月Tow Center的研究指出，AI驱动的搜索引擎超过60%的回答不准确；BBC研究则将聊天机器人的错误率定为约45%。也就是说，AI几乎有一半的概率是错的。

不同模型的表现也有差异。在RealFactBench测试中，Claude以73%的准确率领先；但在OpenAI的SimpleQA基准测试中，没有模型超过50%的准确率。即便是表现最好的Gemini 2.5 Pro，准确率也仅为55.6%。更值得警惕的是，模型可能给出不存在的引用来源——当作者要求ChatGPT提供准确性数据时，它生成了一条指向不存在论文的链接。

实际测试中，四种免费AI模型（Grok、Claude、Gemini、ChatGPT）均未能完成基本的事实核查任务。它们仅提供计划，却未真正验证任何事实。ChatGPT甚至生成了一个原故事中不存在的段落。

国际事实核查网络负责人Angie Holan建议，事实核查员应积极与AI互动，学习其构建方式，以便“理解这些工具的强弱项”。作者深表认同：与AI接触越多，越是感到作为人类核查员的能力优势。

更深层的问题在于，人类大部分知识并未数字化。正如《Lost in Time》作者Jack Bialik指出的，许多古老技术（如流水线、白内障手术、电池）的记载竟比现代存储技术更持久。历史教授Ada Palmer更是坦言：我们对500年前发生的事情了解的不到1%，而其中三分之二可能是错的。依赖寿命5-10年的微芯片和分布式服务器来传承知识，显然风险重重。

当然，人类也会犯错。作者承认自己在采访Holan时忘了录音。但这恰恰说明，人类的错误是可知、可纠的，而AI的“幻觉”往往更隐蔽、更难控制。

结论很明确：AI尚不能替代人类事实核查员，但它可以成为有力的辅助工具。关键在于，我们能否以开放而审慎的态度，探索人机协作的最佳方式。