SproutRAG:基於注意力引導的樹搜索與漸進嵌入的長文檔RAG
SproutRAG是一種新型層次化檢索增強生成框架,通過注意力機制學習文檔結構,構建二叉分塊樹,實現多粒度檢索而不依賴額外LLM調用或壓縮摘要。實驗表明,在科學、法律和開放域基準上,信息效率平均提升6.1%。
檢索增強生成(RAG)系統需要在檢索粒度和上下文連貫性之間取得平衡。現有方法通常依賴LLM引導的分塊、單級上下文擴展或層次化摘要,但這些方法要麼在索引或檢索時產生高昂的LLM調用成本,要麼將上下文聚合限制在單一粒度級別,要麼通過摘要引入信息損失。
針對這一問題,來自多倫多大學等機構的研究人員提出了SproutRAG,一種注意力引導的層次化RAG框架。該方法將句子級分塊組織成逐漸增大但語義連貫的單元,利用學習到的句子間注意力構建二叉分塊樹。與依賴外部LLM、固定上下文擴展或有損摘要的傳統方法不同,SproutRAG能夠學習哪些注意力頭和層最能捕捉語義文檔結構,從而無需額外LLM調用或壓縮摘要即可實現多粒度檢索。
在檢索階段,SproutRAG採用層次化波束搜索,從多個粒度級別檢索候選結果,捕獲超越平面檢索的多句子相關性。整個框架通過聯合目標函數進行端到端訓練,同時優化嵌入和樹結構。在涵蓋科學、法律和開放域設置的四個基準測試中,SproutRAG相比最強基線平均提升了6.1%的信息效率(IE)。相關代碼已開源在GitHub上。該論文於2026年6月16日提交至arXiv,作者包括Amirhossein Abaskohi等四人。SproutRAG的核心創新在於利用預訓練語言模型內部的注意力機制來學習文檔的層次化結構,而非依賴外部LLM進行分塊或摘要。這不僅降低了推理成本,還避免了信息損失。實驗結果顯示,SproutRAG在科學論文、法律文檔和開放域問答等多個場景中均表現出色。未來,該框架可進一步擴展到多模態文檔或與其他檢索策略結合,為長文檔RAG系統提供更高效的解決方案。