约束获取需要更好的基准测试
约束获取(CA)及相关研究因缺乏适当基准而进展受限。现有基准多为求解器设计,忽视领域知识工件。本文提出MPMMine基准套件,以一致性、标准化、完整性、可扩展性、开放性和版本控制为指导,采用MiniZinc、CommonMark和JSON开放格式,提供多模型、多实例及大量解与非解,并附有自然语言描述,以支持文本到模型方法。
文章情报
要点
- 约束获取研究受限于不充分的基准测试,影响可重复性和跨研究可比性。
- 现有基准针对求解器设计,缺乏CA方法所需的领域知识工件。
- MPMMine基准套件强调一致性、标准化、开放格式和多样化数据,包括自然语言描述。
- MPMMine提供整数和连续域中的多模型、数十实例及数千解与非解。
为什么重要
这条新闻值得关注,因为约束获取研究受限于不充分的基准测试,影响可重复性和跨研究可比性。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
约束获取(Constraint Acquisition, CA)及从领域知识工件验证和增强数学规划(Mathematical Programming, MP)模型的相关研究,目前面临基准测试不足的困境。研究团队在最新论文中指出,这种缺陷严重阻碍了实验的可重复性和跨研究的可比性,从而延缓了CA方法的成熟。现有基准大多是为求解器评估而设计,并非针对CA算法的评估。它们组织松散,对个体问题的处理方式不一致,且缺少CA方法所需的领域知识工件。
为应对这一挑战,论文介绍了名为MPMMine的新型基准套件,专门用于评估利用多样领域知识工件发现、验证和增强MP模型的算法。MPMMine的设计遵循六大原则:一致性、标准化、完整性、可扩展性、开放性和版本控制。它采用统一的结构,并依赖开放格式,包括MiniZinc、CommonMark和JSON。该基准套件为每个问题提供多个模型,每个模型包含数十个实例,并提供整数域和连续域中的数千个解和非解。此外,还包含自然语言描述,以支持文本到模型(text-to-model)方法。
MPMMine的推出旨在弥补当前基准的不足,为CA和MP模型增强研究提供标准化、可扩展且丰富的测试平台。通过提供多样化的数据和统一结构,研究人员能够更可靠地比较不同算法,促进该领域的快速发展。论文还指出,MPMMine的开放性和版本控制确保了数据的长期可用性和可追溯性。
这项研究发表于arXiv,论文标题为“Constraint acquisition needs better benchmarks”,作者包括Rafał Stachowiak等人,提交日期为2026年5月25日。论文共12页,包含1张图,并附有相关数据集。相关数据集可通过指定URL获取。该研究涉及人工智能(cs.AI)和计算工程、金融与科学(cs.CE)等领域,MSC分类为90C90(主)和90C05(次),ACM分类为I.6.3、I.2.2和I.2.7。