2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:06 UTC+8

Ko-WideSearch：面向韓國語的廣度搜索基準，用於網絡代理的窮舉集合枚舉

Ko-WideSearch是一個韓國語廣度搜索基準，通過自動化合成與驗證流程構建，包含190個實體、228張表、16個類別，按三個難度層級評估網絡代理的窮舉集合枚舉能力。測試發現代理能恢復集合但無法完整填充行（Item-F1 92.8 vs Row-F1 53.7），且難度增加時性能穩定下降，開放文本單元格是主要瓶頸。

來源arXiv Computational Linguistics作者: Minbyul Jeong

近日，一篇題為《Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents》的論文在arXiv上發佈，介紹了一種新型韓語廣度搜索基準Ko-WideSearch。當前網絡代理基準大多側重於深度搜索——即通過一系列約束找到單一答案，而廣度搜索（窮舉枚舉一個封閉集合並填充每個項目的屬性）幾乎未被評估，尤其是在英語之外的語言中。此外，構建廣度搜索基準的難度更大：驗證黃金集的完整性和每個單元格的正確性遠比檢查單個答案昂貴。

Ko-WideSearch通過自動化合成與驗證流程構建。每個任務指定一個集合父實體（如電視劇季、王朝、聯賽、行政區或選舉），並要求輸出其完整成員列表以及每個項目的屬性表，評分採用Item-F1、Column-F1和Row-F1。基準包含228張表，覆蓋190個實體和16個類別，分為三個難度層級。難度由兩個結構旋鈕獨立調控：表寬和二維複合鍵，使得跨產品成員比例從0%逐步升至100%。一個統一的歸一化感知比較器同時用於黃金集構建和評分，確保穩定日期和計數列不會僅因格式差異而被過度剔除。

研究人員對20個網絡代理進行了測試，結果顯示出一致性的失敗模式：代理能夠恢復集合，但無法正確填充行（例如Item-F1為92.8，而Row-F1僅為53.7）。隨着難度旋鈕的增加，準確率穩步下降，增加搜索次數或投入更多計算資源也無法彌合差距。按單元格類型分析，主要難點在於找到正確的值，而非格式化輸出：開放式的自由文本單元格錯誤率最高，而日期或名稱等標準答案單元格通常表現正確。

Ko-WideSearch為評估網絡代理在廣度搜索任務中的表現提供了重要基準，揭示了當前代理在窮舉枚舉方面的顯著弱點，併為未來研究指明瞭改進方向。該基準的代碼和數據已公開，供研究者使用。