SANA:大規模數據湖中問答代理的關鍵因素是什麼?
本文提出SANA(搜索代理導航消融框架),一種診斷性消融框架,用於分解數據湖中探索性問答(EQA)任務的失敗原因。通過將EQA任務轉化為包含黃金源序列、清洗後子問題和執行記錄的運行時配置文件,SANA構建理想化的搜索、規劃和數據分析工具,對各組件進行消融,從而診斷策略失敗。實驗表明,數據分析是持續瓶頸,搜索在大型數據湖中限制顯著,而規劃問題相對較小。
在人工智能領域,針對大規模數據湖的探索性問答(EQA)任務要求LLM代理自主發現相關數據源、分析檢索結果,並根據中間反饋調整行動。然而,傳統的端到端準確率指標無法區分失敗來自搜索、規劃、數據分析還是代理的行動策略。為此,研究者提出了SANA(Search Agent Navigation Ablation framework)框架,這是一種診斷性消融框架,旨在系統性地識別和量化這些組件的貢獻與瓶頸。
SANA的核心思想是將EQA任務轉化為運行時配置文件,其中包含黃金源序列、清洗後的子問題以及執行記錄。這些配置文件是通過對完美搜索、規劃和數據分析的理想化假設構建的。具體而言,黃金源序列表示最優的數據源訪問順序,清洗後的子問題是將原始問題分解為可獨立回答的步驟,執行記錄則記錄了代理在運行過程中每一步的操作。基於這些配置,SANA可以構建理想化的搜索、規劃和數據分析工具,並通過逐一替換或移除組件進行消融實驗。剩餘的性能差距則直接反映了代理行動策略的失敗程度。這種方法使得研究者能夠從端到端準確率中提取出各組件的獨立影響。
為了驗證SANA作為可複用評估框架的有效性,研究團隊改編了兩個現有的EQA基準:LakeQA和KramaBench。LakeQA包含一個擁有超過10,000個表格的大型數據湖,而KramaBench則是一個規模較小的基準,包含約1,000個表格。他們在固定提示、預算、數據湖和運行時間的條件下,評估了輕量級和中型代理的表現。實驗結果顯示,數據分析在所有基準中都是一致的性能瓶頸,而規劃的影響相對較小;搜索在LakeQA的大規模數據湖設置中是主要侷限,但在規模較小的KramaBench中則不那麼突出。具體來説,當移除理想化的數據分析工具時,代理的性能下降最為顯著,而移除規劃工具的影響則較小。此外,在LakeQA中,理想化的搜索工具能大幅提升性能,表明在大型數據湖中搜索是主要挑戰。
SANA不僅幫助研究者分解了數據湖代理的失敗原因,還為實現搜索、規劃、數據分析和代理設計的系統性進步比較提供了標準化工具。未來,該框架有望指導更高效、更魯棒的EQA系統開發,併為代理設計中的策略優化提供明確方向。