AI News HubLIVE
站内改写2 分钟阅读

AI搜索智能体往往是在确认自己已知的信息,而非真正在网络上进行研究

一项新研究表明,领先的AI搜索智能体(如GPT-5.4和Kimi K2.6)在现有基准测试中并未真正进行研究,它们主要利用网络来确认已从训练中获得的知识。哈尔滨工业大学的研究人员通过引入基于最近90天事件的时间敏感基准LiveBrowseComp发现,一旦模型无法依赖记忆,它们的表现就会崩溃,现有排名也被彻底颠覆。

来源The Decoder作者: Jonathan Kemper

一项来自哈尔滨工业大学和小红书的新研究揭示,领先的AI搜索智能体在标准基准测试中并未进行真正的网络研究,而是主要依赖训练过程中吸收的内在知识来确认答案。研究人员将这种现象称为“内在知识依赖”(IKD)。

研究团队测试了包括GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro和Kimi K2.6在内的11个模型。首先,他们移除了所有搜索和浏览工具。令人惊讶的是,即使没有网络访问,这些模型也取得了相当高的分数。例如,MiniMax M2.5仅凭记忆就解决了44.5%的BrowseComp任务,而Kimi K2.6在中文变体BrowseComp-ZH上达到了62%。这表明,很大一部分基准测试成绩实际上来自搜索之前的内部分析。

更关键的测试是保留搜索界面但从索引中移除所有支持答案的文档。此时,每个模型的性能比没有工具时更差。MiniMax M2.5从44.5%跌至8.0%,Kimi K2.6从25.5%降至2.3%。这表明,当搜索无法找到确认信息时,会主动将模型从正确的直觉答案带偏。分析搜索路径发现,超过一半的查询来自模型自身的推理,而非先前找到的命中结果。即使搜索中出现了相关证据,模型将其纳入推理的次数也不到三分之一。整个循环是由模型主导,而非证据驱动。

为了衡量真实的搜索行为,研究人员构建了LiveBrowseComp基准,包含335个人工编写的问题,每个问题都依赖于创建前90天内至少一个事实,并且没有这些最新信息就无法回答。这些事件来自电影数据库、游戏目录、安全漏洞登记和地震目录等持续更新的来源,并且刻意排除了全球知名事件,只留下不太可能渗入模型参数的冷门但可公开验证的事实。在LiveBrowseComp上,所有模型的无工具准确率都降至2%以下,开启工具后得分比它们在BrowseComp上低25到40个百分点。GLM 5.1从开源模型中的领先者跌至中游,而DeepSeek v3.2从垫底升至榜首,说明在静态基准上的排名主要反映模型已有的知识,而非搜索能力。研究人员认为,动态、时间敏感的基准应成为评估AI智能体的标准,并呼吁训练信号奖励基于证据的研究。