AI News HubLIVE
站内改写2 分鐘閱讀

AI搜索智能體往往是在確認自己已知的信息,而非真正在網絡上進行研究

一項新研究表明,領先的AI搜索智能體(如GPT-5.4和Kimi K2.6)在現有基準測試中並未真正進行研究,它們主要利用網絡來確認已從訓練中獲得的知識。哈爾濱工業大學的研究人員通過引入基於最近90天事件的時間敏感基準LiveBrowseComp發現,一旦模型無法依賴記憶,它們的表現就會崩潰,現有排名也被徹底顛覆。

來源The Decoder作者: Jonathan Kemper

一項來自哈爾濱工業大學和小紅書的新研究揭示,領先的AI搜索智能體在標準基準測試中並未進行真正的網絡研究,而是主要依賴訓練過程中吸收的內在知識來確認答案。研究人員將這種現象稱為“內在知識依賴”(IKD)。

研究團隊測試了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在內的11個模型。首先,他們移除了所有搜索和瀏覽工具。令人驚訝的是,即使沒有網絡訪問,這些模型也取得了相當高的分數。例如,MiniMax M2.5僅憑記憶就解決了44.5%的BrowseComp任務,而Kimi K2.6在中文變體BrowseComp-ZH上達到了62%。這表明,很大一部分基準測試成績實際上來自搜索之前的內部分析。

更關鍵的測試是保留搜索界面但從索引中移除所有支持答案的文檔。此時,每個模型的性能比沒有工具時更差。MiniMax M2.5從44.5%跌至8.0%,Kimi K2.6從25.5%降至2.3%。這表明,當搜索無法找到確認信息時,會主動將模型從正確的直覺答案帶偏。分析搜索路徑發現,超過一半的查詢來自模型自身的推理,而非先前找到的命中結果。即使搜索中出現了相關證據,模型將其納入推理的次數也不到三分之一。整個循環是由模型主導,而非證據驅動。

為了衡量真實的搜索行為,研究人員構建了LiveBrowseComp基準,包含335個人工編寫的問題,每個問題都依賴於創建前90天內至少一個事實,並且沒有這些最新信息就無法回答。這些事件來自電影數據庫、遊戲目錄、安全漏洞登記和地震目錄等持續更新的來源,並且刻意排除了全球知名事件,只留下不太可能滲入模型參數的冷門但可公開驗證的事實。在LiveBrowseComp上,所有模型的無工具準確率都降至2%以下,開啓工具後得分比它們在BrowseComp上低25到40個百分點。GLM 5.1從開源模型中的領先者跌至中游,而DeepSeek v3.2從墊底升至榜首,説明在靜態基準上的排名主要反映模型已有的知識,而非搜索能力。研究人員認為,動態、時間敏感的基準應成為評估AI智能體的標準,並呼籲訓練信號獎勵基於證據的研究。