AI News HubLIVE
站內改寫2 分鐘閱讀

AI能否進行事實核查?

本文探討了AI在事實核查領域的應用與侷限性。作者作為WIRED雜誌的事實核查員,通過親身測試發現,當前AI模型在事實核查任務中表現不佳,錯誤率高達30%-60%,且無法真正執行核查工作。文章指出,儘管AI工具如Full Fact可輔助處理海量數據,但人類核查員的判斷力、對非數字化知識的依賴以及對歷史信息的理解仍不可替代。最後,作者呼籲事實核查者應積極與AI互動,理解其優缺點,而非迴避。

來源Hacker News AI作者: simianwords

在人工智能(AI)日益滲透各行各業的今天,一個自然產生的問題是:AI能否勝任事實核查這樣的精細工作?WIRED雜誌的事實核查員經過親身測試和深入調研,給出了否定的答案。

傳統的事實核查過程——逐行標註、依賴一手資料、進行倫理和法律審查——AI尚未真正觸及。目前,AI更多應用於事後核查,如Full Fact這類工具通過處理社交媒體帖子、播客文字稿等海量數據來標記可疑聲明,再交由人類進一步核實。正如Full Fact公共事務主管Mark Frankel所言:“最終你絕對需要人類。”

為什麼人類不可或缺?因為AI依然頻繁出錯。作者作為專業核查員,發現谷歌AI概要有約三分之一的時間是不可用的。更系統的研究則顯示更高的錯誤率:2025年3月Tow Center的研究指出,AI驅動的搜索引擎超過60%的回答不準確;BBC研究則將聊天機器人的錯誤率定為約45%。也就是説,AI幾乎有一半的概率是錯的。

不同模型的表現也有差異。在RealFactBench測試中,Claude以73%的準確率領先;但在OpenAI的SimpleQA基準測試中,沒有模型超過50%的準確率。即便是表現最好的Gemini 2.5 Pro,準確率也僅為55.6%。更值得警惕的是,模型可能給出不存在的引用來源——當作者要求ChatGPT提供準確性數據時,它生成了一條指向不存在論文的鏈接。

實際測試中,四種免費AI模型(Grok、Claude、Gemini、ChatGPT)均未能完成基本的事實核查任務。它們僅提供計劃,卻未真正驗證任何事實。ChatGPT甚至生成了一個原故事中不存在的段落。

國際事實核查網絡負責人Angie Holan建議,事實核查員應積極與AI互動,學習其構建方式,以便“理解這些工具的強弱項”。作者深表認同:與AI接觸越多,越是感到作為人類核查員的能力優勢。

更深層的問題在於,人類大部分知識並未數字化。正如《Lost in Time》作者Jack Bialik指出的,許多古老技術(如流水線、白內障手術、電池)的記載竟比現代存儲技術更持久。歷史教授Ada Palmer更是坦言:我們對500年前發生的事情瞭解的不到1%,而其中三分之二可能是錯的。依賴壽命5-10年的微芯片和分佈式服務器來傳承知識,顯然風險重重。

當然,人類也會犯錯。作者承認自己在採訪Holan時忘了錄音。但這恰恰説明,人類的錯誤是可知、可糾的,而AI的“幻覺”往往更隱蔽、更難控制。

結論很明確:AI尚不能替代人類事實核查員,但它可以成為有力的輔助工具。關鍵在於,我們能否以開放而審慎的態度,探索人機協作的最佳方式。