AI News HubLIVE
站内改写2 分钟阅读

AI能否进行事实核查?

本文探讨了AI在事实核查领域的应用与局限性。作者作为WIRED杂志的事实核查员,通过亲身测试发现,当前AI模型在事实核查任务中表现不佳,错误率高达30%-60%,且无法真正执行核查工作。文章指出,尽管AI工具如Full Fact可辅助处理海量数据,但人类核查员的判断力、对非数字化知识的依赖以及对历史信息的理解仍不可替代。最后,作者呼吁事实核查者应积极与AI互动,理解其优缺点,而非回避。

来源Hacker News AI作者: simianwords

在人工智能(AI)日益渗透各行各业的今天,一个自然产生的问题是:AI能否胜任事实核查这样的精细工作?WIRED杂志的事实核查员经过亲身测试和深入调研,给出了否定的答案。

传统的事实核查过程——逐行标注、依赖一手资料、进行伦理和法律审查——AI尚未真正触及。目前,AI更多应用于事后核查,如Full Fact这类工具通过处理社交媒体帖子、播客文字稿等海量数据来标记可疑声明,再交由人类进一步核实。正如Full Fact公共事务主管Mark Frankel所言:“最终你绝对需要人类。”

为什么人类不可或缺?因为AI依然频繁出错。作者作为专业核查员,发现谷歌AI概要有约三分之一的时间是不可用的。更系统的研究则显示更高的错误率:2025年3月Tow Center的研究指出,AI驱动的搜索引擎超过60%的回答不准确;BBC研究则将聊天机器人的错误率定为约45%。也就是说,AI几乎有一半的概率是错的。

不同模型的表现也有差异。在RealFactBench测试中,Claude以73%的准确率领先;但在OpenAI的SimpleQA基准测试中,没有模型超过50%的准确率。即便是表现最好的Gemini 2.5 Pro,准确率也仅为55.6%。更值得警惕的是,模型可能给出不存在的引用来源——当作者要求ChatGPT提供准确性数据时,它生成了一条指向不存在论文的链接。

实际测试中,四种免费AI模型(Grok、Claude、Gemini、ChatGPT)均未能完成基本的事实核查任务。它们仅提供计划,却未真正验证任何事实。ChatGPT甚至生成了一个原故事中不存在的段落。

国际事实核查网络负责人Angie Holan建议,事实核查员应积极与AI互动,学习其构建方式,以便“理解这些工具的强弱项”。作者深表认同:与AI接触越多,越是感到作为人类核查员的能力优势。

更深层的问题在于,人类大部分知识并未数字化。正如《Lost in Time》作者Jack Bialik指出的,许多古老技术(如流水线、白内障手术、电池)的记载竟比现代存储技术更持久。历史教授Ada Palmer更是坦言:我们对500年前发生的事情了解的不到1%,而其中三分之二可能是错的。依赖寿命5-10年的微芯片和分布式服务器来传承知识,显然风险重重。

当然,人类也会犯错。作者承认自己在采访Holan时忘了录音。但这恰恰说明,人类的错误是可知、可纠的,而AI的“幻觉”往往更隐蔽、更难控制。

结论很明确:AI尚不能替代人类事实核查员,但它可以成为有力的辅助工具。关键在于,我们能否以开放而审慎的态度,探索人机协作的最佳方式。