2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

DynaSchedBench：校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論

本文提出DynaSchedBench框架，透過順序事件空間校準器（SESC）和排程壓力指數（SSI）嚴格生成動態靈活作業車間排程問題（DFJSP）例項，解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”：提供完整結構資訊反而會降低效能，且工具增強和細化策略無法可靠提升效果。

來源arXiv AI作者: Shijie Cao, Yuan Yuan, Jing Liu

動態靈活作業車間排程問題（DFJSP）是製造業與物流領域的核心最佳化難題，然而當前基於神經組合最佳化的研究面臨一個根本性的方法論矛盾：一方面，靜態基準測試因缺乏多樣性而容易導致演算法過擬合；另一方面，未校準的隨機例項生成器引入大量噪聲，使得演算法的真實能力難以被準確評估。為了解決這一問題，研究者提出了DynaSchedBench——一個專門為DFJSP設計的診斷框架，透過系統性控制例項生成過程來確保評估的公平性與可重複性。

DynaSchedBench的關鍵創新在於其順序事件空間校準器（Sequential Event-Space Calibrator, SESC）。與傳統的引數取樣方法不同，SESC透過計算一個新的排程壓力指數（Schedule Stress Index, SSI）來量化例項的困難程度，並據此對例項進行難度分層。實驗結果顯示，SESC在計算效率上顯著優於基於進化演算法的基線方法，並且能夠穩定收斂至預設的目標指標。框架本身採用模組化設計，整合了例項生成、基於快照的模擬、排程代理、效能評估以及結果視覺化等元件，從而為測試反應式策略與前瞻性策略提供了統一平臺。

利用這一校準環境，研究者系統評估了多種基於大型語言模型（LLM）的排程代理。他們發現了一個反直覺的現象，即“可觀察性悖論”（Observability Paradox）：在逐步進行的線上決策過程中，向代理提供完整的結構化資訊（即所謂的“神諭”訪問）反而會損害其決策效能，表現遠不如僅提供簡潔資訊的情況。此外，儘管耗費了大量的計算令牌，使用工具增強或細化策略也未能持續提升代理的效能。事實上，大多數LLM代理無法穩定超越經典的強排程基線（如最短處理時間優先等規則），其行為模式更接近於魯棒的啟發式近似器，而非真正意義上的優越最佳化器。

這一發現為將LLM應用於組合最佳化領域提出了重要警示，同時也凸顯了在動態排程問題中設計狀態表徵時需要格外謹慎。DynaSchedBench提供的校準評估環境，有望推動該領域走向更加嚴謹和標準化的研究正規化。