2026-05-31 15:48 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI搜索智能体往往是在确认自己已知的信息，而非真正在网络上进行研究

一项新研究表明，领先的AI搜索智能体（如GPT-5.4和Kimi K2.6）在现有基准测试中并未真正进行研究，它们主要利用网络来确认已从训练中获得的知识。哈尔滨工业大学的研究人员通过引入基于最近90天事件的时间敏感基准LiveBrowseComp发现，一旦模型无法依赖记忆，它们的表现就会崩溃，现有排名也被彻底颠覆。

来源The Decoder作者: Jonathan Kemper

一项来自哈尔滨工业大学和小红书的新研究揭示，领先的AI搜索智能体在标准基准测试中并未进行真正的网络研究，而是主要依赖训练过程中吸收的内在知识来确认答案。研究人员将这种现象称为“内在知识依赖”（IKD）。

研究团队测试了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在内的11个模型。首先，他们移除了所有搜索和浏览工具。令人惊讶的是，即使没有网络访问，这些模型也取得了相当高的分数。例如，MiniMax M2.5仅凭记忆就解决了44.5%的BrowseComp任务，而Kimi K2.6在中文变体BrowseComp-ZH上达到了62%。这表明，很大一部分基准测试成绩实际上来自搜索之前的内部分析。

更关键的测试是保留搜索界面但从索引中移除所有支持答案的文档。此时，每个模型的性能比没有工具时更差。MiniMax M2.5从44.5%跌至8.0%，Kimi K2.6从25.5%降至2.3%。这表明，当搜索无法找到确认信息时，会主动将模型从正确的直觉答案带偏。分析搜索路径发现，超过一半的查询来自模型自身的推理，而非先前找到的命中结果。即使搜索中出现了相关证据，模型将其纳入推理的次数也不到三分之一。整个循环是由模型主导，而非证据驱动。

为了衡量真实的搜索行为，研究人员构建了LiveBrowseComp基准，包含335个人工编写的问题，每个问题都依赖于创建前90天内至少一个事实，并且没有这些最新信息就无法回答。这些事件来自电影数据库、游戏目录、安全漏洞登记和地震目录等持续更新的来源，并且刻意排除了全球知名事件，只留下不太可能渗入模型参数的冷门但可公开验证的事实。在LiveBrowseComp上，所有模型的无工具准确率都降至2%以下，开启工具后得分比它们在BrowseComp上低25到40个百分点。GLM 5.1从开源模型中的领先者跌至中游，而DeepSeek v3.2从垫底升至榜首，说明在静态基准上的排名主要反映模型已有的知识，而非搜索能力。研究人员认为，动态、时间敏感的基准应成为评估AI智能体的标准，并呼吁训练信号奖励基于证据的研究。