你的大語言模型(LLM)只取決於它檢索到的內容
一位研究人員認為,檢索質量是RAG系統中最重要的因素,勝過模型大小或提示設計。檢索差會導致難以檢測的幻覺,文章識別了五種常見的失效模式,並提供了改進檢索的實用建議,包括混合搜尋、交叉編碼器重排序和持續評估。
在一項關於多智慧體LLM系統中幻覺檢測的研究中,最一致的發現並非關於模型大小、提示設計或推理溫度,而是關於檢索。糟糕的檢索質量是研究人員所研究的每一種管道配置中輸出質量下降的最可靠預測因素。
實驗證據明確表明:當檢索失敗時,語言模型並不會彌補,而是進行外推。它會用聽起來合理但缺乏事實依據的內容填補空白,並且以與正確輸出相同的流暢度和自信度來生成。結果是一種系統性的、且在沒有專門評估基礎設施的情況下極難檢測的失敗模式。
本文基於這項研究,提供了一份結構化的、面向實踐者的檢索質量分析:它是什麼,為什麼比大多數團隊意識到的更重要,實踐中如何失敗,以及如何改進。無論你是在構建生產級RAG管道還是設計多智慧體系統,這些原則都直接適用於LLM最終輸出的可靠性。
理解RAG系統中的檢索層
檢索增強生成(RAG)解決了大型語言模型的一個根本侷限:它們無法訪問訓練截止日期之後或訓練分佈之外的資訊。在RAG架構中,推理時會查詢外部知識庫(通常是向量資料庫),以在生成開始前向模型提供相關上下文。
該管道按三個順序階段執行:
- 索引:源文件被分割成塊,透過嵌入模型編碼為密集向量表示,並儲存在向量資料庫中。
- 檢索:查詢時,使用者輸入使用相同的嵌入模型編碼,並透過相似度度量(通常是餘弦相似度)與索引向量進行比較。返回最相似的top-k塊。
- 生成:檢索到的塊作為基礎材料注入模型的上下文視窗。LLM基於查詢和檢索到的內容生成響應。
該架構的隱含契約是檢索到的內容準確、最新且真正與查詢相關。當這個契約成立時,RAG系統表現出色;否則,架構會產生一種特定且危險的失敗模式:模型生成連貫、自信但基於錯誤或不相關上下文的輸出,且沒有任何機制表明出了問題。
檢索失敗如何驅動LLM幻覺:來自研究的證據
研究者的論文研究調查了多智慧體LLM管道中的幻覺檢測與緩解。其中一部分工作是構建跨智慧體軌跡出現的失敗模式分類法,並描述每種失敗型別發生的條件。檢索相關失敗始終佔主導地位,無論是在頻率還是對輸出質量的下游影響上。
在作為論文一部分進行的HaluEval、TruthfulQA和FaithDial實驗評估中,研究者發現即使在其他方面配置良好的生成階段管道中,檢索層失敗也一貫佔幻覺的相當大比例。這一發現與更廣泛的文獻一致:斯坦福大學的HELM基準評估和麥吉爾大學對FaithDial語料庫的分析都表明,對檢索上下文的忠實度(而非模型規模)是知識基礎生成任務中事實準確性的主要預測因素。
在我們的實驗工作中,五種檢索失敗模式最為一致:
- 檢索漂移:檢索到的塊在嵌入空間中與查詢語義接近,但上下文不足以回答問題。常見於多跳查詢,單個嵌入無法表示所需的全部資訊。
- 上下文截斷:當檢索到的塊過大並溢位模型上下文視窗時,截斷會靜默地移除資訊。模型透過依賴引數記憶來補償。
- 陳舊索引汙染:過時的文件繼續作為top-k匹配出現。模型無法區分時間上有效和無效的檢索內容。
- 低相關性top-k檢索:當沒有文件與查詢緊密匹配時,檢索器仍返回top-k結果,無論相關性如何。這些低訊號塊稀釋了上下文視窗,模型將噪聲融入生成。
- 智慧體間溝通失誤:在多智慧體管道中,上游智慧體的檢索失敗會傳播並放大到所有下游智慧體,產生複合退化,而在輸出層仍然不可見。
這些失敗之所以特別嚴重,在於其隱蔽性。與簡單說“不知道”的模型不同,基於糟糕檢索上下文生成的模型會產生格式良好、自信的輸出。檢測需要地面實況比較或專門的評估層,而這在多陣列件中預設不存在。
為什麼擴大模型規模不能解決檢索問題
對RAG效能不佳的一種常見且可以理解的反應是將其歸因於模型能力,並透過擴大規模來解決:更大的模型、更好的微調或更先進的基礎模型。這個直覺在孤立情況下是合理的,但當檢索質量是根本原因時,它誤診了問題。
想象一位高度熟練的分析師拿到一份偽造的報告。分析師的專業知識並不能保護其免受源材料質量的影響;它只是讓他們更有效地從所獲得的資訊中構建有說服力的論點。一個更強大的LLM,在檢索到的低質量上下文下,恰好會產生這種結果:更高流暢度的幻覺。模型的額外能力被用於合理化並詳細闡述糟糕的輸入,而不是糾正它們。
在實驗比較中,帶有高質量檢索的較小模型與帶有退化檢索的較大模型相比,較小模型一貫產生更忠實的輸出。檢索層,而非生成層,設定了事實準確性的有效上限。對檢索質量改進的投資會在整個管道中產生複合回報,無論最終使用哪個模型。
檢索質量的四個維度
改進檢索質量不是單一干預,而是在索引和檢索管道中做出的一系列複合決策。以下四個維度代表了基於實驗發現和更廣泛研究文獻的最高槓杆領域。
1. 嵌入模型選擇
嵌入模型決定了意義如何在向量空間中編碼。通用嵌入模型在許多領域表現尚可,但在專門語料庫(尤其是技術、法律或生物醫學領域)上顯示出可衡量的退化。在承諾使用一個模型之前,針對目標域的代表性真實查詢進行多個嵌入模型的基準測試,是一項在整個系統執行生命週期中帶來回報的投資。
2. 分塊架構
分塊策略對檢索精度的影響經常被低估。固定大小的字元分塊經常在任意邊界處破壞語義單元,產生語法不完整的塊,在嵌入空間中表示不佳。更有效的方法包括句子邊界分塊、尊重段落結構的遞迴分割,以及保留每個子塊父文件上下文的分層分塊。
3. 檢索策略
樸素的top-k向量相似性檢索是一個合理的起點,但對於生產系統來說很少是最優配置。三種增強方法在檢索精度上表現出可衡量的改進:
- 混合搜尋:將密集向量搜尋與稀疏BM25關鍵詞檢索相結合,捕獲互補訊號。密集檢索處理語義相似性;稀疏檢索處理精確匹配和罕見術語查詢。
- 交叉編碼器重排序:Bi-encoder檢索器高效地檢索候選結果,然後cross-encoder重新排序器對每個候選結果與完整查詢進行聯合評分,計算量更大但精度顯著更高。
- 相關性閾值:在塊進入上下文視窗之前強制執行最小相似度分數,防止低相關性top-k失敗模式。如果沒有檢索到的塊達到閾值,系統應明確提示。
4. 索引維護與新鮮度
檢索質量的時間維度在大多數RAG實現中未得到充分重視。向量索引反映其索引時源文件的狀態。如果沒有主動維護,索引質量會隨著基礎域的變化率而退化。生產系統需要增量索引管道,能夠及時檢測文件新增和修改。文件後設資料(特別是時間戳)可用於在查詢時應用時效性加權或過濾陳舊結果。
評估檢索質量:實用測量框架
沒有測量就無法改進檢索質量。以下指標為量化檢索效能提供了結構化框架:
- 上下文精確度:檢索到的塊中真正與查詢相關的比例。低精度表示噪聲內容進入上下文視窗。
- 上下文召回率:回答查詢所需資訊在檢索集中出現的比例。低召回率迫使模型依賴引數記憶。
- 忠實度:生成響應在多大程度上被檢索到的上下文蘊含。這是關鍵端到端指標,衡量檢索質量是否轉化為有依據的生成。
- 平均倒數排名(MRR):對於排序的檢索結果,MRR衡量第一個真正相關文件的平均排名。
諸如RAGAS等框架將這些指標操作化,並可整合到與CI/CD流程並行的評估管道中。目標是使檢索質量成為一個可跟蹤、可監控且歷史可比的量,而不是初始系統開發期間的一次性審計。
複合問題:多智慧體系統中的檢索失敗
在單智慧體RAG系統中,檢索失敗的影響是有限的:一個查詢,一次生成,一個輸出需要評估。多智慧體系統則面臨結構上不同的問題,其中專門的智慧體按順序操作並在彼此之間傳遞上下文。任何階段的檢索失敗都不會被隔離,而是會傳播。
考慮一個典型的多智慧體管道:研究智慧體檢索源材料,綜合智慧體總結,推理智慧體對總結進行推理,響應智慧體制定最終輸出。如果研究智慧體的檢索被一個低相關性塊或陳舊文件汙染,那麼綜合智慧體會將該有缺陷的內容壓縮成聽起來自信的總結。然後推理智慧體將該總結視為既定事實。響應智慧體格式化並呈現結論,而沒有指示推理鏈建立在腐敗基礎上。
這種模式屬於研究分類法中的“智慧體間溝通失誤”,由上游檢索失敗驅動。其定義性特徵是輸出層的失敗特徵與檢索層的起源完全脫節。診斷需要跟蹤完整的智慧體軌跡,而不只是檢查最終響應。標準的輸出級評估方法對此類錯誤基本視而不見。
架構上的啟示是顯著的。管道中每個執行檢索或消費源自檢索的上下文的智慧體都需要自己的質量驗證機制。不符合定義的相關性和新鮮度標準的上下文應被標記、阻止傳遞給下游智慧體,或升級進行審查,而不是靜默地像可信內容一樣傳遞。
生產系統的實用建議
以下建議基於實驗發現和實際系統設計經驗,反映了最高槓杆的干預措施。它們按優先順序排序,適用於首次解決檢索質量的團隊。
首先從檢索審計開始,而不是模型升級。在調整任何生成層引數之前,手動檢查一組代表性查詢的50到100個檢索結果。確定主要問題是分塊質量、嵌入模型擬合度、索引陳舊性還是閾值配置。
將混合搜尋作為基線實施。純密集檢索在真實世界語料庫中始終不如混合配置。BM25元件相對於其帶來的精度提升僅增加極少的延遲,特別是對於涉及技術識別符號或領域特定術語的查詢。
明確強制執行檢索閾值。配置一個最小相似度分數,低於該分數的檢索塊不傳遞給生成層。一個返回無上下文並明確告知的系統,比一個靜默地從不相關內容生成的系統要可信得多。
建立連續的忠實度基線。使用自動化評估框架對保留的查詢集在管道更改前後測量忠實度。將忠實度視為與延遲和吞吐量並列的一級系統指標。
在多智慧體架構中,在每個檢索點對上下文進行門控。每個執行檢索或依賴來自上游智慧體的檢索上下文的智慧體,在將該上下文納入其推理之前,應應用獨立的相關性驗證步驟。
總結
檢索質量不是RAG系統中的次要問題。它是決定語言模型是產生可靠、有根據的輸出,還是產生連貫、不可檢測的幻覺的主要因素。研究者在多智慧體LLM管道中關於幻覺檢測的研究始終指出,檢索層是最高槓杆的干預點,無論在故障頻率還是對輸出可信度的下游影響方面。
實際的路徑是明確的:明確測量檢索質量,以應用於模型選擇的同樣嚴謹態度處理分塊和嵌入決策,強制執行相關性閾值而不是依賴模型來補償糟糕的上下文,在多智慧體系統中,將每個智慧體的檢索介面視為需要驗證的獨立風險面。
生成層在應用LLM研究和工程中獲得了最多的關注。檢索層值得更多關注。