AI News HubLIVE
站内改写2 分鐘閱讀

SANA:大規模資料湖中問答代理的關鍵因素是什麼?

本文提出SANA(搜尋代理導航消融框架),一種診斷性消融框架,用於分解資料湖中探索性問答(EQA)任務的失敗原因。透過將EQA任務轉化為包含黃金源序列、清洗後子問題和執行記錄的執行時配置檔案,SANA構建理想化的搜尋、規劃和資料分析工具,對各元件進行消融,從而診斷策略失敗。實驗表明,資料分析是持續瓶頸,搜尋在大型資料湖中限制顯著,而規劃問題相對較小。

來源arXiv Computational Linguistics作者: Austin Senna Wijaya, Jiaxiang Liu, Haonan Wang, Eugene Wu

在人工智慧領域,針對大規模資料湖的探索性問答(EQA)任務要求LLM代理自主發現相關資料來源、分析檢索結果,並根據中間反饋調整行動。然而,傳統的端到端準確率指標無法區分失敗來自搜尋、規劃、資料分析還是代理的行動策略。為此,研究者提出了SANA(Search Agent Navigation Ablation framework)框架,這是一種診斷性消融框架,旨在系統性地識別和量化這些元件的貢獻與瓶頸。

SANA的核心思想是將EQA任務轉化為執行時配置檔案,其中包含黃金源序列、清洗後的子問題以及執行記錄。這些配置檔案是透過對完美搜尋、規劃和資料分析的理想化假設構建的。具體而言,黃金源序列表示最優的資料來源訪問順序,清洗後的子問題是將原始問題分解為可獨立回答的步驟,執行記錄則記錄了代理在執行過程中每一步的操作。基於這些配置,SANA可以構建理想化的搜尋、規劃和資料分析工具,並透過逐一替換或移除元件進行消融實驗。剩餘的效能差距則直接反映了代理行動策略的失敗程度。這種方法使得研究者能夠從端到端準確率中提取出各元件的獨立影響。

為了驗證SANA作為可複用評估框架的有效性,研究團隊改編了兩個現有的EQA基準:LakeQA和KramaBench。LakeQA包含一個擁有超過10,000個表格的大型資料湖,而KramaBench則是一個規模較小的基準,包含約1,000個表格。他們在固定提示、預算、資料湖和執行時間的條件下,評估了輕量級和中型代理的表現。實驗結果顯示,資料分析在所有基準中都是一致的效能瓶頸,而規劃的影響相對較小;搜尋在LakeQA的大規模資料湖設定中是主要侷限,但在規模較小的KramaBench中則不那麼突出。具體來說,當移除理想化的資料分析工具時,代理的效能下降最為顯著,而移除規劃工具的影響則較小。此外,在LakeQA中,理想化的搜尋工具能大幅提升效能,表明在大型資料湖中搜尋是主要挑戰。

SANA不僅幫助研究者分解了資料湖代理的失敗原因,還為實現搜尋、規劃、資料分析和代理設計的系統性進步比較提供了標準化工具。未來,該框架有望指導更高效、更魯棒的EQA系統開發,併為代理設計中的策略最佳化提供明確方向。