2026-06-17站内改写1 分钟阅读更新: 2026-06-17

规则学习：用于法律案例检索的自进化智能体

研究人员提出了一种自进化框架，利用大语言模型（LLM）驱动的智能体自动生成查询重写规则，在不进行参数训练的情况下增强BM25算法在法律案例检索中的性能。实验表明，该方法在中文法律案例检索基准LeCaRD-v2上优于人工设计规则和贪心规则选择等基线。

来源arXiv AI作者: Mingxu Tao, Jiawei Hu, Xian Zhou, Wenpeng Hu, Jiajun Cheng, Yunbo Cao, Zhunchen Luo, Guotong Geng

法律案例检索一直是自然语言处理领域中的一项挑战性任务，主要难点在于法律语言的复杂性和查询与相关案例之间需要精确的词法对齐。尽管近年来基于密集向量的检索模型取得了显著进展，但实证研究反复表明，传统的BM25算法在该领域中仍然是一个强大的基线。这一发现促使研究团队思考：是否可以在不进行参数训练的前提下，通过规则驱动的查询重写来进一步提升BM25的性能？

为此，来自多所机构的研究人员提出了一种自进化框架（Self-Evolving Framework），该框架赋予大语言模型（LLM）驱动的智能体一个自动评估环境，使其能够迭代地创建查询重写规则、规划规则组合的验证实验，并根据历史反馈淘汰无效规则。整个过程无需任何参数训练，完全依靠LLM的推理能力和实验经验来优化规则集。

研究团队在中文法律案例检索基准LeCaRD-v2上对该方法进行了评估。实验结果表明，与包括人工设计规则和贪心规则选择在内的非进化基线相比，所提出的框架在各项指标上均表现更优，尤其是在使用高性能LLM（如GPT-4或类似模型）作为核心时，性能提升更为显著。

进一步的机制分析揭示了自进化的关键驱动力：LLM不仅能够有效利用先前实验的结果来指导后续规则生成，还具备内在的规则淘汰知识，即能够判断哪些规则是冗余或无效的，从而提升规则集的整体质量。这一发现为理解LLM在自动知识发现中的应用提供了新的视角。

该论文已被ACL 2026会议接收，相关代码和数据集预计将公开发布，以便研究社区进一步探索和扩展这一方法。