AI News HubLIVE
站内改写6 分钟阅读

你的大语言模型(LLM)只取决于它检索到的内容

一位研究人员认为,检索质量是RAG系统中最重要的因素,胜过模型大小或提示设计。检索差会导致难以检测的幻觉,文章识别了五种常见的失效模式,并提供了改进检索的实用建议,包括混合搜索、交叉编码器重排序和持续评估。

在一项关于多智能体LLM系统中幻觉检测的研究中,最一致的发现并非关于模型大小、提示设计或推理温度,而是关于检索。糟糕的检索质量是研究人员所研究的每一种管道配置中输出质量下降的最可靠预测因素。

实验证据明确表明:当检索失败时,语言模型并不会弥补,而是进行外推。它会用听起来合理但缺乏事实依据的内容填补空白,并且以与正确输出相同的流畅度和自信度来生成。结果是一种系统性的、且在没有专门评估基础设施的情况下极难检测的失败模式。

本文基于这项研究,提供了一份结构化的、面向实践者的检索质量分析:它是什么,为什么比大多数团队意识到的更重要,实践中如何失败,以及如何改进。无论你是在构建生产级RAG管道还是设计多智能体系统,这些原则都直接适用于LLM最终输出的可靠性。

理解RAG系统中的检索层

检索增强生成(RAG)解决了大型语言模型的一个根本局限:它们无法访问训练截止日期之后或训练分布之外的信息。在RAG架构中,推理时会查询外部知识库(通常是向量数据库),以在生成开始前向模型提供相关上下文。

该管道按三个顺序阶段运行:

  • 索引:源文档被分割成块,通过嵌入模型编码为密集向量表示,并存储在向量数据库中。
  • 检索:查询时,用户输入使用相同的嵌入模型编码,并通过相似度度量(通常是余弦相似度)与索引向量进行比较。返回最相似的top-k块。
  • 生成:检索到的块作为基础材料注入模型的上下文窗口。LLM基于查询和检索到的内容生成响应。

该架构的隐含契约是检索到的内容准确、最新且真正与查询相关。当这个契约成立时,RAG系统表现出色;否则,架构会产生一种特定且危险的失败模式:模型生成连贯、自信但基于错误或不相关上下文的输出,且没有任何机制表明出了问题。

检索失败如何驱动LLM幻觉:来自研究的证据

研究者的论文研究调查了多智能体LLM管道中的幻觉检测与缓解。其中一部分工作是构建跨智能体轨迹出现的失败模式分类法,并描述每种失败类型发生的条件。检索相关失败始终占主导地位,无论是在频率还是对输出质量的下游影响上。

在作为论文一部分进行的HaluEval、TruthfulQA和FaithDial实验评估中,研究者发现即使在其他方面配置良好的生成阶段管道中,检索层失败也一贯占幻觉的相当大比例。这一发现与更广泛的文献一致:斯坦福大学的HELM基准评估和麦吉尔大学对FaithDial语料库的分析都表明,对检索上下文的忠实度(而非模型规模)是知识基础生成任务中事实准确性的主要预测因素。

在我们的实验工作中,五种检索失败模式最为一致:

  1. 检索漂移:检索到的块在嵌入空间中与查询语义接近,但上下文不足以回答问题。常见于多跳查询,单个嵌入无法表示所需的全部信息。
  2. 上下文截断:当检索到的块过大并溢出模型上下文窗口时,截断会静默地移除信息。模型通过依赖参数记忆来补偿。
  3. 陈旧索引污染:过时的文档继续作为top-k匹配出现。模型无法区分时间上有效和无效的检索内容。
  4. 低相关性top-k检索:当没有文档与查询紧密匹配时,检索器仍返回top-k结果,无论相关性如何。这些低信号块稀释了上下文窗口,模型将噪声融入生成。
  5. 智能体间沟通失误:在多智能体管道中,上游智能体的检索失败会传播并放大到所有下游智能体,产生复合退化,而在输出层仍然不可见。

这些失败之所以特别严重,在于其隐蔽性。与简单说“不知道”的模型不同,基于糟糕检索上下文生成的模型会产生格式良好、自信的输出。检测需要地面实况比较或专门的评估层,而这在多数组件中默认不存在。

为什么扩大模型规模不能解决检索问题

对RAG性能不佳的一种常见且可以理解的反应是将其归因于模型能力,并通过扩大规模来解决:更大的模型、更好的微调或更先进的基础模型。这个直觉在孤立情况下是合理的,但当检索质量是根本原因时,它误诊了问题。

想象一位高度熟练的分析师拿到一份伪造的报告。分析师的专业知识并不能保护其免受源材料质量的影响;它只是让他们更有效地从所获得的信息中构建有说服力的论点。一个更强大的LLM,在检索到的低质量上下文下,恰好会产生这种结果:更高流畅度的幻觉。模型的额外能力被用于合理化并详细阐述糟糕的输入,而不是纠正它们。

在实验比较中,带有高质量检索的较小模型与带有退化检索的较大模型相比,较小模型一贯产生更忠实的输出。检索层,而非生成层,设定了事实准确性的有效上限。对检索质量改进的投资会在整个管道中产生复合回报,无论最终使用哪个模型。

检索质量的四个维度

改进检索质量不是单一干预,而是在索引和检索管道中做出的一系列复合决策。以下四个维度代表了基于实验发现和更广泛研究文献的最高杠杆领域。

1. 嵌入模型选择

嵌入模型决定了意义如何在向量空间中编码。通用嵌入模型在许多领域表现尚可,但在专门语料库(尤其是技术、法律或生物医学领域)上显示出可衡量的退化。在承诺使用一个模型之前,针对目标域的代表性真实查询进行多个嵌入模型的基准测试,是一项在整个系统运行生命周期中带来回报的投资。

2. 分块架构

分块策略对检索精度的影响经常被低估。固定大小的字符分块经常在任意边界处破坏语义单元,产生语法不完整的块,在嵌入空间中表示不佳。更有效的方法包括句子边界分块、尊重段落结构的递归分割,以及保留每个子块父文档上下文的分层分块。

3. 检索策略

朴素的top-k向量相似性检索是一个合理的起点,但对于生产系统来说很少是最优配置。三种增强方法在检索精度上表现出可衡量的改进:

  • 混合搜索:将密集向量搜索与稀疏BM25关键词检索相结合,捕获互补信号。密集检索处理语义相似性;稀疏检索处理精确匹配和罕见术语查询。
  • 交叉编码器重排序:Bi-encoder检索器高效地检索候选结果,然后cross-encoder重新排序器对每个候选结果与完整查询进行联合评分,计算量更大但精度显著更高。
  • 相关性阈值:在块进入上下文窗口之前强制执行最小相似度分数,防止低相关性top-k失败模式。如果没有检索到的块达到阈值,系统应明确提示。

4. 索引维护与新鲜度

检索质量的时间维度在大多数RAG实现中未得到充分重视。向量索引反映其索引时源文档的状态。如果没有主动维护,索引质量会随着基础域的变化率而退化。生产系统需要增量索引管道,能够及时检测文档添加和修改。文档元数据(特别是时间戳)可用于在查询时应用时效性加权或过滤陈旧结果。

评估检索质量:实用测量框架

没有测量就无法改进检索质量。以下指标为量化检索性能提供了结构化框架:

  • 上下文精确度:检索到的块中真正与查询相关的比例。低精度表示噪声内容进入上下文窗口。
  • 上下文召回率:回答查询所需信息在检索集中出现的比例。低召回率迫使模型依赖参数记忆。
  • 忠实度:生成响应在多大程度上被检索到的上下文蕴含。这是关键端到端指标,衡量检索质量是否转化为有依据的生成。
  • 平均倒数排名(MRR):对于排序的检索结果,MRR衡量第一个真正相关文档的平均排名。

诸如RAGAS等框架将这些指标操作化,并可集成到与CI/CD流程并行的评估管道中。目标是使检索质量成为一个可跟踪、可监控且历史可比的量,而不是初始系统开发期间的一次性审计。

复合问题:多智能体系统中的检索失败

在单智能体RAG系统中,检索失败的影响是有限的:一个查询,一次生成,一个输出需要评估。多智能体系统则面临结构上不同的问题,其中专门的智能体按顺序操作并在彼此之间传递上下文。任何阶段的检索失败都不会被隔离,而是会传播。

考虑一个典型的多智能体管道:研究智能体检索源材料,综合智能体总结,推理智能体对总结进行推理,响应智能体制定最终输出。如果研究智能体的检索被一个低相关性块或陈旧文档污染,那么综合智能体会将该有缺陷的内容压缩成听起来自信的总结。然后推理智能体将该总结视为既定事实。响应智能体格式化并呈现结论,而没有指示推理链建立在腐败基础上。

这种模式属于研究分类法中的“智能体间沟通失误”,由上游检索失败驱动。其定义性特征是输出层的失败特征与检索层的起源完全脱节。诊断需要跟踪完整的智能体轨迹,而不只是检查最终响应。标准的输出级评估方法对此类错误基本视而不见。

架构上的启示是显著的。管道中每个执行检索或消费源自检索的上下文的智能体都需要自己的质量验证机制。不符合定义的相关性和新鲜度标准的上下文应被标记、阻止传递给下游智能体,或升级进行审查,而不是静默地像可信内容一样传递。

生产系统的实用建议

以下建议基于实验发现和实际系统设计经验,反映了最高杠杆的干预措施。它们按优先级排序,适用于首次解决检索质量的团队。

首先从检索审计开始,而不是模型升级。在调整任何生成层参数之前,手动检查一组代表性查询的50到100个检索结果。确定主要问题是分块质量、嵌入模型拟合度、索引陈旧性还是阈值配置。

将混合搜索作为基线实施。纯密集检索在真实世界语料库中始终不如混合配置。BM25组件相对于其带来的精度提升仅增加极少的延迟,特别是对于涉及技术标识符或领域特定术语的查询。

明确强制执行检索阈值。配置一个最小相似度分数,低于该分数的检索块不传递给生成层。一个返回无上下文并明确告知的系统,比一个静默地从不相关内容生成的系统要可信得多。

建立连续的忠实度基线。使用自动化评估框架对保留的查询集在管道更改前后测量忠实度。将忠实度视为与延迟和吞吐量并列的一级系统指标。

在多智能体架构中,在每个检索点对上下文进行门控。每个执行检索或依赖来自上游智能体的检索上下文的智能体,在将该上下文纳入其推理之前,应应用独立的相关性验证步骤。

总结

检索质量不是RAG系统中的次要问题。它是决定语言模型是产生可靠、有根据的输出,还是产生连贯、不可检测的幻觉的主要因素。研究者在多智能体LLM管道中关于幻觉检测的研究始终指出,检索层是最高杠杆的干预点,无论在故障频率还是对输出可信度的下游影响方面。

实际的路径是明确的:明确测量检索质量,以应用于模型选择的同样严谨态度处理分块和嵌入决策,强制执行相关性阈值而不是依赖模型来补偿糟糕的上下文,在多智能体系统中,将每个智能体的检索接口视为需要验证的独立风险面。

生成层在应用LLM研究和工程中获得了最多的关注。检索层值得更多关注。