2026-06-16站内改写1 分鐘閱讀更新: 2026-06-16

Dr-DCI：透過動態工作空間擴充套件實現直接語料庫互動的規模化

Dr-DCI 是一種檢索器引導的直接語料庫互動（DCI）框架，將檢索視為代理可呼叫的操作，透過動態擴充套件本地工作空間來平衡可擴充套件性與精確性。在 Browsecomp-Plus 上達到 73.3% 的準確率，優於原始 DCI 和 BM25，並能穩定擴充套件到 2000 萬文件。

來源arXiv AI作者: Yi Lu, Zhuofeng Li, Ping Nie, Haoxiang Zhang, Yuyu Zhang, Kai Zou, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

在人工智慧領域，代理搜尋大型語料庫時，通常依賴檢索器中介介面（如 BM25 或 ColBERT）進行可擴充套件的候選發現。這些介面雖然能夠有效對相關文件進行排序，但它們僅將證據呈現為排名結果或受限的文件檢視，這限制了代理重新組織材料以及跨文件驗證約束的能力。為了突破這一限制，直接語料庫互動（Direct Corpus Interaction, DCI）應運而生，它透過暴露可執行的語料庫操作（如搜尋、過濾、比較和驗證）來賦予代理更大的靈活性。然而，隨著語料庫規模的擴大，針對全語料庫的終端命令逐漸變得緩慢且不穩定，導致效能和效率下降。

針對上述問題，研究團隊提出了 Dr-DCI，一種由檢索器引導的 DCI 框架。該框架的核心創新在於將檢索本身視為代理可以呼叫的操作，用於動態地擴充套件本地工作空間。代理不再直接對整個語料庫進行操作，而是根據任務需求，逐步將相關文件拉入一個不斷演化的工作空間中，並在此空間內執行 DCI 操作。這種設計巧妙地結合了檢索級別的召回率和 DCI 風格的精確性：檢索保證了探索過程的可擴充套件性，而 DCI 則保留了有效證據解析所需的本地操作能力。

該框架的實際有效性得到了全面的實驗驗證。在 Browsecomp-Plus 基準測試中，Dr-DCI 達到了 71.2% 的準確率，相比原始 DCI 和多個消融變體最高提升了 8.3 個百分點，同時顯著減少了工具使用量、掛鐘時間和估計成本。透過引入工作空間保持的上下文重設機制，準確率進一步提升至 73.3%。在語料庫規模擴充套件實驗中，從 10 萬文件到 1000 萬文件的範圍內，Dr-DCI 始終保持有效，而原始 DCI 則變得不穩定，BM25 的表現更是大幅下滑。令人矚目的是，Dr-DCI 還能夠擴充套件到 2000 萬文件級別的 Wiki-18 QA 設定（每個文件對應一個檔案），在六個基準測試中取得了平均 63.0 的得分，超越了基於檢索的基線和經過訓練的搜尋代理基線。消融分析進一步表明，排名預覽和文件間 DCI 操作是取得優異效能的關鍵因素。