2026-05-31 15:48 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI搜索智能體往往是在確認自己已知的信息，而非真正在網絡上進行研究

一項新研究表明，領先的AI搜索智能體（如GPT-5.4和Kimi K2.6）在現有基準測試中並未真正進行研究，它們主要利用網絡來確認已從訓練中獲得的知識。哈爾濱工業大學的研究人員通過引入基於最近90天事件的時間敏感基準LiveBrowseComp發現，一旦模型無法依賴記憶，它們的表現就會崩潰，現有排名也被徹底顛覆。

來源The Decoder作者: Jonathan Kemper

一項來自哈爾濱工業大學和小紅書的新研究揭示，領先的AI搜索智能體在標準基準測試中並未進行真正的網絡研究，而是主要依賴訓練過程中吸收的內在知識來確認答案。研究人員將這種現象稱為“內在知識依賴”（IKD）。

研究團隊測試了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在內的11個模型。首先，他們移除了所有搜索和瀏覽工具。令人驚訝的是，即使沒有網絡訪問，這些模型也取得了相當高的分數。例如，MiniMax M2.5僅憑記憶就解決了44.5%的BrowseComp任務，而Kimi K2.6在中文變體BrowseComp-ZH上達到了62%。這表明，很大一部分基準測試成績實際上來自搜索之前的內部分析。

更關鍵的測試是保留搜索界面但從索引中移除所有支持答案的文檔。此時，每個模型的性能比沒有工具時更差。MiniMax M2.5從44.5%跌至8.0%，Kimi K2.6從25.5%降至2.3%。這表明，當搜索無法找到確認信息時，會主動將模型從正確的直覺答案帶偏。分析搜索路徑發現，超過一半的查詢來自模型自身的推理，而非先前找到的命中結果。即使搜索中出現了相關證據，模型將其納入推理的次數也不到三分之一。整個循環是由模型主導，而非證據驅動。

為了衡量真實的搜索行為，研究人員構建了LiveBrowseComp基準，包含335個人工編寫的問題，每個問題都依賴於創建前90天內至少一個事實，並且沒有這些最新信息就無法回答。這些事件來自電影數據庫、遊戲目錄、安全漏洞登記和地震目錄等持續更新的來源，並且刻意排除了全球知名事件，只留下不太可能滲入模型參數的冷門但可公開驗證的事實。在LiveBrowseComp上，所有模型的無工具準確率都降至2%以下，開啓工具後得分比它們在BrowseComp上低25到40個百分點。GLM 5.1從開源模型中的領先者跌至中游，而DeepSeek v3.2從墊底升至榜首，説明在靜態基準上的排名主要反映模型已有的知識，而非搜索能力。研究人員認為，動態、時間敏感的基準應成為評估AI智能體的標準，並呼籲訓練信號獎勵基於證據的研究。