AI News HubLIVE
站内改写2 分鐘閱讀

AI搜尋智慧體往往是在確認自己已知的資訊,而非真正在網路上進行研究

一項新研究表明,領先的AI搜尋智慧體(如GPT-5.4和Kimi K2.6)在現有基準測試中並未真正進行研究,它們主要利用網路來確認已從訓練中獲得的知識。哈爾濱工業大學的研究人員透過引入基於最近90天事件的時間敏感基準LiveBrowseComp發現,一旦模型無法依賴記憶,它們的表現就會崩潰,現有排名也被徹底顛覆。

來源The Decoder作者: Jonathan Kemper

一項來自哈爾濱工業大學和小紅書的新研究揭示,領先的AI搜尋智慧體在標準基準測試中並未進行真正的網路研究,而是主要依賴訓練過程中吸收的內在知識來確認答案。研究人員將這種現象稱為“內在知識依賴”(IKD)。

研究團隊測試了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在內的11個模型。首先,他們移除了所有搜尋和瀏覽工具。令人驚訝的是,即使沒有網路訪問,這些模型也取得了相當高的分數。例如,MiniMax M2.5僅憑記憶就解決了44.5%的BrowseComp任務,而Kimi K2.6在中文變體BrowseComp-ZH上達到了62%。這表明,很大一部分基準測試成績實際上來自搜尋之前的內部分析。

更關鍵的測試是保留搜尋介面但從索引中移除所有支援答案的文件。此時,每個模型的效能比沒有工具時更差。MiniMax M2.5從44.5%跌至8.0%,Kimi K2.6從25.5%降至2.3%。這表明,當搜尋無法找到確認資訊時,會主動將模型從正確的直覺答案帶偏。分析搜尋路徑發現,超過一半的查詢來自模型自身的推理,而非先前找到的命中結果。即使搜尋中出現了相關證據,模型將其納入推理的次數也不到三分之一。整個迴圈是由模型主導,而非證據驅動。

為了衡量真實的搜尋行為,研究人員構建了LiveBrowseComp基準,包含335個人工編寫的問題,每個問題都依賴於建立前90天內至少一個事實,並且沒有這些最新資訊就無法回答。這些事件來自電影資料庫、遊戲目錄、安全漏洞登記和地震目錄等持續更新的來源,並且刻意排除了全球知名事件,只留下不太可能滲入模型引數的冷門但可公開驗證的事實。在LiveBrowseComp上,所有模型的無工具準確率都降至2%以下,開啟工具後得分比它們在BrowseComp上低25到40個百分點。GLM 5.1從開源模型中的領先者跌至中游,而DeepSeek v3.2從墊底升至榜首,說明在靜態基準上的排名主要反映模型已有的知識,而非搜尋能力。研究人員認為,動態、時間敏感的基準應成為評估AI智慧體的標準,並呼籲訓練訊號獎勵基於證據的研究。