2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:06 UTC+8

Ko-WideSearch：面向韩国语的广度搜索基准，用于网络代理的穷举集合枚举

Ko-WideSearch是一个韩国语广度搜索基准，通过自动化合成与验证流程构建，包含190个实体、228张表、16个类别，按三个难度层级评估网络代理的穷举集合枚举能力。测试发现代理能恢复集合但无法完整填充行（Item-F1 92.8 vs Row-F1 53.7），且难度增加时性能稳定下降，开放文本单元格是主要瓶颈。

来源arXiv Computational Linguistics作者: Minbyul Jeong

近日，一篇题为《Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents》的论文在arXiv上发布，介绍了一种新型韩语广度搜索基准Ko-WideSearch。当前网络代理基准大多侧重于深度搜索——即通过一系列约束找到单一答案，而广度搜索（穷举枚举一个封闭集合并填充每个项目的属性）几乎未被评估，尤其是在英语之外的语言中。此外，构建广度搜索基准的难度更大：验证黄金集的完整性和每个单元格的正确性远比检查单个答案昂贵。

Ko-WideSearch通过自动化合成与验证流程构建。每个任务指定一个集合父实体（如电视剧季、王朝、联赛、行政区或选举），并要求输出其完整成员列表以及每个项目的属性表，评分采用Item-F1、Column-F1和Row-F1。基准包含228张表，覆盖190个实体和16个类别，分为三个难度层级。难度由两个结构旋钮独立调控：表宽和二维复合键，使得跨产品成员比例从0%逐步升至100%。一个统一的归一化感知比较器同时用于黄金集构建和评分，确保稳定日期和计数列不会仅因格式差异而被过度剔除。

研究人员对20个网络代理进行了测试，结果显示出一致性的失败模式：代理能够恢复集合，但无法正确填充行（例如Item-F1为92.8，而Row-F1仅为53.7）。随着难度旋钮的增加，准确率稳步下降，增加搜索次数或投入更多计算资源也无法弥合差距。按单元格类型分析，主要难点在于找到正确的值，而非格式化输出：开放式的自由文本单元格错误率最高，而日期或名称等标准答案单元格通常表现正确。

Ko-WideSearch为评估网络代理在广度搜索任务中的表现提供了重要基准，揭示了当前代理在穷举枚举方面的显著弱点，并为未来研究指明了改进方向。该基准的代码和数据已公开，供研究者使用。