AI News HubLIVE
站内改写1 分钟阅读

Ko-WideSearch:面向韩国语的广度搜索基准,用于网络代理的穷举集合枚举

Ko-WideSearch是一个韩国语广度搜索基准,通过自动化合成与验证流程构建,包含190个实体、228张表、16个类别,按三个难度层级评估网络代理的穷举集合枚举能力。测试发现代理能恢复集合但无法完整填充行(Item-F1 92.8 vs Row-F1 53.7),且难度增加时性能稳定下降,开放文本单元格是主要瓶颈。

来源arXiv Computational Linguistics作者: Minbyul Jeong

近日,一篇题为《Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents》的论文在arXiv上发布,介绍了一种新型韩语广度搜索基准Ko-WideSearch。当前网络代理基准大多侧重于深度搜索——即通过一系列约束找到单一答案,而广度搜索(穷举枚举一个封闭集合并填充每个项目的属性)几乎未被评估,尤其是在英语之外的语言中。此外,构建广度搜索基准的难度更大:验证黄金集的完整性和每个单元格的正确性远比检查单个答案昂贵。

Ko-WideSearch通过自动化合成与验证流程构建。每个任务指定一个集合父实体(如电视剧季、王朝、联赛、行政区或选举),并要求输出其完整成员列表以及每个项目的属性表,评分采用Item-F1、Column-F1和Row-F1。基准包含228张表,覆盖190个实体和16个类别,分为三个难度层级。难度由两个结构旋钮独立调控:表宽和二维复合键,使得跨产品成员比例从0%逐步升至100%。一个统一的归一化感知比较器同时用于黄金集构建和评分,确保稳定日期和计数列不会仅因格式差异而被过度剔除。

研究人员对20个网络代理进行了测试,结果显示出一致性的失败模式:代理能够恢复集合,但无法正确填充行(例如Item-F1为92.8,而Row-F1仅为53.7)。随着难度旋钮的增加,准确率稳步下降,增加搜索次数或投入更多计算资源也无法弥合差距。按单元格类型分析,主要难点在于找到正确的值,而非格式化输出:开放式的自由文本单元格错误率最高,而日期或名称等标准答案单元格通常表现正确。

Ko-WideSearch为评估网络代理在广度搜索任务中的表现提供了重要基准,揭示了当前代理在穷举枚举方面的显著弱点,并为未来研究指明了改进方向。该基准的代码和数据已公开,供研究者使用。