2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

DynaSchedBench：校準的動態調度基準與基於LLM的調度代理中的可觀察性悖論

本文提出DynaSchedBench框架，通過順序事件空間校準器（SESC）和調度壓力指數（SSI）嚴格生成動態靈活作業車間調度問題（DFJSP）實例，解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM調度代理存在“可觀察性悖論”：提供完整結構信息反而會降低性能，且工具增強和細化策略無法可靠提升效果。

來源arXiv AI作者: Shijie Cao, Yuan Yuan, Jing Liu

動態靈活作業車間調度問題（DFJSP）是製造業與物流領域的核心優化難題，然而當前基於神經組合優化的研究面臨一個根本性的方法論矛盾：一方面，靜態基準測試因缺乏多樣性而容易導致算法過擬合；另一方面，未校準的隨機實例生成器引入大量噪聲，使得算法的真實能力難以被準確評估。為了解決這一問題，研究者提出了DynaSchedBench——一個專門為DFJSP設計的診斷框架，通過系統性控制實例生成過程來確保評估的公平性與可重複性。

DynaSchedBench的關鍵創新在於其順序事件空間校準器（Sequential Event-Space Calibrator, SESC）。與傳統的參數採樣方法不同，SESC通過計算一個新的調度壓力指數（Schedule Stress Index, SSI）來量化實例的困難程度，並據此對實例進行難度分層。實驗結果顯示，SESC在計算效率上顯著優於基於進化算法的基線方法，並且能夠穩定收斂至預設的目標指標。框架本身採用模塊化設計，集成了實例生成、基於快照的仿真、調度代理、性能評估以及結果可視化等組件，從而為測試反應式策略與前瞻性策略提供了統一平台。

利用這一校準環境，研究者系統評估了多種基於大型語言模型（LLM）的調度代理。他們發現了一個反直覺的現象，即“可觀察性悖論”（Observability Paradox）：在逐步進行的在線決策過程中，向代理提供完整的結構化信息（即所謂的“神諭”訪問）反而會損害其決策性能，表現遠不如僅提供簡潔信息的情況。此外，儘管耗費了大量的計算令牌，使用工具增強或細化策略也未能持續提升代理的性能。事實上，大多數LLM代理無法穩定超越經典的強調度基線（如最短處理時間優先等規則），其行為模式更接近於魯棒的啓發式近似器，而非真正意義上的優越優化器。

這一發現為將LLM應用於組合優化領域提出了重要警示，同時也凸顯了在動態調度問題中設計狀態表徵時需要格外謹慎。DynaSchedBench提供的校準評估環境，有望推動該領域走向更加嚴謹和標準化的研究範式。