Ko-WideSearch:面向韓國語的廣度搜索基準,用於網絡代理的窮舉集合枚舉
Ko-WideSearch是一個韓國語廣度搜索基準,通過自動化合成與驗證流程構建,包含190個實體、228張表、16個類別,按三個難度層級評估網絡代理的窮舉集合枚舉能力。測試發現代理能恢復集合但無法完整填充行(Item-F1 92.8 vs Row-F1 53.7),且難度增加時性能穩定下降,開放文本單元格是主要瓶頸。
近日,一篇題為《Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents》的論文在arXiv上發佈,介紹了一種新型韓語廣度搜索基準Ko-WideSearch。當前網絡代理基準大多側重於深度搜索——即通過一系列約束找到單一答案,而廣度搜索(窮舉枚舉一個封閉集合並填充每個項目的屬性)幾乎未被評估,尤其是在英語之外的語言中。此外,構建廣度搜索基準的難度更大:驗證黃金集的完整性和每個單元格的正確性遠比檢查單個答案昂貴。
Ko-WideSearch通過自動化合成與驗證流程構建。每個任務指定一個集合父實體(如電視劇季、王朝、聯賽、行政區或選舉),並要求輸出其完整成員列表以及每個項目的屬性表,評分採用Item-F1、Column-F1和Row-F1。基準包含228張表,覆蓋190個實體和16個類別,分為三個難度層級。難度由兩個結構旋鈕獨立調控:表寬和二維複合鍵,使得跨產品成員比例從0%逐步升至100%。一個統一的歸一化感知比較器同時用於黃金集構建和評分,確保穩定日期和計數列不會僅因格式差異而被過度剔除。
研究人員對20個網絡代理進行了測試,結果顯示出一致性的失敗模式:代理能夠恢復集合,但無法正確填充行(例如Item-F1為92.8,而Row-F1僅為53.7)。隨着難度旋鈕的增加,準確率穩步下降,增加搜索次數或投入更多計算資源也無法彌合差距。按單元格類型分析,主要難點在於找到正確的值,而非格式化輸出:開放式的自由文本單元格錯誤率最高,而日期或名稱等標準答案單元格通常表現正確。
Ko-WideSearch為評估網絡代理在廣度搜索任務中的表現提供了重要基準,揭示了當前代理在窮舉枚舉方面的顯著弱點,併為未來研究指明瞭改進方向。該基準的代碼和數據已公開,供研究者使用。