AI如何找到我的模型?一项关于数据格式、嵌入和检索策略的模型发现实验研究
本实验研究利用AI通过自然语言查询发现仿真模型,探讨了数据表示、基于Transformer的嵌入模型和检索策略的影响。结果表明,数据表示对检索性能至关重要,开源嵌入模型可达到与专有模型相当的高性能,而重排序方法在查询复杂度增加时尤为重要。该工作为AI驱动的模型发现提供了基线,并展望了其在推动AI驱动的可组合性和互操作性方面的作用。
在建模与仿真(M&S)领域,随着仿真模型数量的快速增长,如何从庞大的模型库中高效地发现并重用与特定建模意图相匹配的模型,已成为一个核心挑战。传统的模型检索方法往往依赖元数据或关键词匹配,难以捕捉模型的深层语义信息。近年来,人工智能(AI)的进步,尤其是基于检索的方法,为在语义层面进行模型发现提供了新的可能性。
针对这一需求,Jhon G. Botello 及其合作者开展了一项实验研究,系统评估了数据表示、基于Transformer的嵌入模型以及检索策略对仿真模型发现的影响。研究人员使用自然语言查询作为检索输入,通过标准信息检索指标(如recall@5和nDCG@5)对多种查询类型进行了性能评估。实验结果显示,数据表示方式对检索效果有显著影响;开源嵌入模型(如来自Hugging Face的模型)能够达到与专有模型(如OpenAI的嵌入模型)相当的高性能;此外,随着查询复杂度的增加,重排序方法(如交叉编码器重排序)变得尤为重要,能够有效提升最终检索结果的精度。
该研究的核心贡献在于为AI驱动的模型发现提供了一个系统的基线参考。作者指出,这项工作不仅有助于提高仿真模型的可重用性,还为AI驱动的模型可组合性和互操作性奠定了基础。通过将AI技术与建模与仿真相结合,研究人员可以更高效地发现和复用现有模型,从而降低建模成本,加速仿真研究。
该论文已被2026年冬季仿真会议(WSC 2026)接收,最终版本将发表在IEEE Xplore上。感兴趣的读者可以通过arXiv预印本(arXiv:2606.30846)获取全文。随着模型的不断增多和AI技术的持续演进,这一研究方向有望在未来发挥更大作用。