2026-05-31 15:48 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI搜尋智慧體往往是在確認自己已知的資訊，而非真正在網路上進行研究

一項新研究表明，領先的AI搜尋智慧體（如GPT-5.4和Kimi K2.6）在現有基準測試中並未真正進行研究，它們主要利用網路來確認已從訓練中獲得的知識。哈爾濱工業大學的研究人員透過引入基於最近90天事件的時間敏感基準LiveBrowseComp發現，一旦模型無法依賴記憶，它們的表現就會崩潰，現有排名也被徹底顛覆。

來源The Decoder作者: Jonathan Kemper

一項來自哈爾濱工業大學和小紅書的新研究揭示，領先的AI搜尋智慧體在標準基準測試中並未進行真正的網路研究，而是主要依賴訓練過程中吸收的內在知識來確認答案。研究人員將這種現象稱為“內在知識依賴”（IKD）。

研究團隊測試了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在內的11個模型。首先，他們移除了所有搜尋和瀏覽工具。令人驚訝的是，即使沒有網路訪問，這些模型也取得了相當高的分數。例如，MiniMax M2.5僅憑記憶就解決了44.5%的BrowseComp任務，而Kimi K2.6在中文變體BrowseComp-ZH上達到了62%。這表明，很大一部分基準測試成績實際上來自搜尋之前的內部分析。

更關鍵的測試是保留搜尋介面但從索引中移除所有支援答案的文件。此時，每個模型的效能比沒有工具時更差。MiniMax M2.5從44.5%跌至8.0%，Kimi K2.6從25.5%降至2.3%。這表明，當搜尋無法找到確認資訊時，會主動將模型從正確的直覺答案帶偏。分析搜尋路徑發現，超過一半的查詢來自模型自身的推理，而非先前找到的命中結果。即使搜尋中出現了相關證據，模型將其納入推理的次數也不到三分之一。整個迴圈是由模型主導，而非證據驅動。

為了衡量真實的搜尋行為，研究人員構建了LiveBrowseComp基準，包含335個人工編寫的問題，每個問題都依賴於建立前90天內至少一個事實，並且沒有這些最新資訊就無法回答。這些事件來自電影資料庫、遊戲目錄、安全漏洞登記和地震目錄等持續更新的來源，並且刻意排除了全球知名事件，只留下不太可能滲入模型引數的冷門但可公開驗證的事實。在LiveBrowseComp上，所有模型的無工具準確率都降至2%以下，開啟工具後得分比它們在BrowseComp上低25到40個百分點。GLM 5.1從開源模型中的領先者跌至中游，而DeepSeek v3.2從墊底升至榜首，說明在靜態基準上的排名主要反映模型已有的知識，而非搜尋能力。研究人員認為，動態、時間敏感的基準應成為評估AI智慧體的標準，並呼籲訓練訊號獎勵基於證據的研究。