2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

DynaSchedBench：校准的动态调度基准与基于LLM的调度代理中的可观察性悖论

本文提出DynaSchedBench框架，通过顺序事件空间校准器（SESC）和调度压力指数（SSI）严格生成动态灵活作业车间调度问题（DFJSP）实例，解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”：提供完整结构信息反而会降低性能，且工具增强和细化策略无法可靠提升效果。

来源arXiv AI作者: Shijie Cao, Yuan Yuan, Jing Liu

动态灵活作业车间调度问题（DFJSP）是制造业与物流领域的核心优化难题，然而当前基于神经组合优化的研究面临一个根本性的方法论矛盾：一方面，静态基准测试因缺乏多样性而容易导致算法过拟合；另一方面，未校准的随机实例生成器引入大量噪声，使得算法的真实能力难以被准确评估。为了解决这一问题，研究者提出了DynaSchedBench——一个专门为DFJSP设计的诊断框架，通过系统性控制实例生成过程来确保评估的公平性与可重复性。

DynaSchedBench的关键创新在于其顺序事件空间校准器（Sequential Event-Space Calibrator, SESC）。与传统的参数采样方法不同，SESC通过计算一个新的调度压力指数（Schedule Stress Index, SSI）来量化实例的困难程度，并据此对实例进行难度分层。实验结果显示，SESC在计算效率上显著优于基于进化算法的基线方法，并且能够稳定收敛至预设的目标指标。框架本身采用模块化设计，集成了实例生成、基于快照的仿真、调度代理、性能评估以及结果可视化等组件，从而为测试反应式策略与前瞻性策略提供了统一平台。

利用这一校准环境，研究者系统评估了多种基于大型语言模型（LLM）的调度代理。他们发现了一个反直觉的现象，即“可观察性悖论”（Observability Paradox）：在逐步进行的在线决策过程中，向代理提供完整的结构化信息（即所谓的“神谕”访问）反而会损害其决策性能，表现远不如仅提供简洁信息的情况。此外，尽管耗费了大量的计算令牌，使用工具增强或细化策略也未能持续提升代理的性能。事实上，大多数LLM代理无法稳定超越经典的强调度基线（如最短处理时间优先等规则），其行为模式更接近于鲁棒的启发式近似器，而非真正意义上的优越优化器。

这一发现为将LLM应用于组合优化领域提出了重要警示，同时也凸显了在动态调度问题中设计状态表征时需要格外谨慎。DynaSchedBench提供的校准评估环境，有望推动该领域走向更加严谨和标准化的研究范式。