2026-07-06 03:21 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-06 03:44 UTC+8

AI能否進行事實核查？

本文探討了AI在事實核查領域的應用與侷限性。作者作為WIRED雜誌的事實核查員，通過親身測試發現，當前AI模型在事實核查任務中表現不佳，錯誤率高達30%-60%，且無法真正執行核查工作。文章指出，儘管AI工具如Full Fact可輔助處理海量數據，但人類核查員的判斷力、對非數字化知識的依賴以及對歷史信息的理解仍不可替代。最後，作者呼籲事實核查者應積極與AI互動，理解其優缺點，而非迴避。

來源Hacker News AI作者: simianwords

在人工智能（AI）日益滲透各行各業的今天，一個自然產生的問題是：AI能否勝任事實核查這樣的精細工作？WIRED雜誌的事實核查員經過親身測試和深入調研，給出了否定的答案。

傳統的事實核查過程——逐行標註、依賴一手資料、進行倫理和法律審查——AI尚未真正觸及。目前，AI更多應用於事後核查，如Full Fact這類工具通過處理社交媒體帖子、播客文字稿等海量數據來標記可疑聲明，再交由人類進一步核實。正如Full Fact公共事務主管Mark Frankel所言：“最終你絕對需要人類。”

為什麼人類不可或缺？因為AI依然頻繁出錯。作者作為專業核查員，發現谷歌AI概要有約三分之一的時間是不可用的。更系統的研究則顯示更高的錯誤率：2025年3月Tow Center的研究指出，AI驅動的搜索引擎超過60%的回答不準確；BBC研究則將聊天機器人的錯誤率定為約45%。也就是説，AI幾乎有一半的概率是錯的。

不同模型的表現也有差異。在RealFactBench測試中，Claude以73%的準確率領先；但在OpenAI的SimpleQA基準測試中，沒有模型超過50%的準確率。即便是表現最好的Gemini 2.5 Pro，準確率也僅為55.6%。更值得警惕的是，模型可能給出不存在的引用來源——當作者要求ChatGPT提供準確性數據時，它生成了一條指向不存在論文的鏈接。

實際測試中，四種免費AI模型（Grok、Claude、Gemini、ChatGPT）均未能完成基本的事實核查任務。它們僅提供計劃，卻未真正驗證任何事實。ChatGPT甚至生成了一個原故事中不存在的段落。

國際事實核查網絡負責人Angie Holan建議，事實核查員應積極與AI互動，學習其構建方式，以便“理解這些工具的強弱項”。作者深表認同：與AI接觸越多，越是感到作為人類核查員的能力優勢。

更深層的問題在於，人類大部分知識並未數字化。正如《Lost in Time》作者Jack Bialik指出的，許多古老技術（如流水線、白內障手術、電池）的記載竟比現代存儲技術更持久。歷史教授Ada Palmer更是坦言：我們對500年前發生的事情瞭解的不到1%，而其中三分之二可能是錯的。依賴壽命5-10年的微芯片和分佈式服務器來傳承知識，顯然風險重重。

當然，人類也會犯錯。作者承認自己在採訪Holan時忘了錄音。但這恰恰説明，人類的錯誤是可知、可糾的，而AI的“幻覺”往往更隱蔽、更難控制。

結論很明確：AI尚不能替代人類事實核查員，但它可以成為有力的輔助工具。關鍵在於，我們能否以開放而審慎的態度，探索人機協作的最佳方式。