AI News HubLIVE
站内改写

DynaSchedBench:校准的动态调度基准与基于LLM的调度代理中的可观察性悖论

本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。

文章情报

工程师进阶

要点

  • DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。
  • LLM代理在动态调度中表现出“可观察性悖论”:完整信息不如简洁信息有效。
  • 工具增强和细化策略无法持续提升LLM代理性能,多数代理不如强调度基线。

为什么重要

这条新闻值得关注,因为DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

动态灵活作业车间调度问题(DFJSP)是制造业与物流领域的核心优化难题,然而当前基于神经组合优化的研究面临一个根本性的方法论矛盾:一方面,静态基准测试因缺乏多样性而容易导致算法过拟合;另一方面,未校准的随机实例生成器引入大量噪声,使得算法的真实能力难以被准确评估。为了解决这一问题,研究者提出了DynaSchedBench——一个专门为DFJSP设计的诊断框架,通过系统性控制实例生成过程来确保评估的公平性与可重复性。

DynaSchedBench的关键创新在于其顺序事件空间校准器(Sequential Event-Space Calibrator, SESC)。与传统的参数采样方法不同,SESC通过计算一个新的调度压力指数(Schedule Stress Index, SSI)来量化实例的困难程度,并据此对实例进行难度分层。实验结果显示,SESC在计算效率上显著优于基于进化算法的基线方法,并且能够稳定收敛至预设的目标指标。框架本身采用模块化设计,集成了实例生成、基于快照的仿真、调度代理、性能评估以及结果可视化等组件,从而为测试反应式策略与前瞻性策略提供了统一平台。

利用这一校准环境,研究者系统评估了多种基于大型语言模型(LLM)的调度代理。他们发现了一个反直觉的现象,即“可观察性悖论”(Observability Paradox):在逐步进行的在线决策过程中,向代理提供完整的结构化信息(即所谓的“神谕”访问)反而会损害其决策性能,表现远不如仅提供简洁信息的情况。此外,尽管耗费了大量的计算令牌,使用工具增强或细化策略也未能持续提升代理的性能。事实上,大多数LLM代理无法稳定超越经典的强调度基线(如最短处理时间优先等规则),其行为模式更接近于鲁棒的启发式近似器,而非真正意义上的优越优化器。

这一发现为将LLM应用于组合优化领域提出了重要警示,同时也凸显了在动态调度问题中设计状态表征时需要格外谨慎。DynaSchedBench提供的校准评估环境,有望推动该领域走向更加严谨和标准化的研究范式。