DynaSchedBench:校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論
本文提出DynaSchedBench框架,透過順序事件空間校準器(SESC)和排程壓力指數(SSI)嚴格生成動態靈活作業車間排程問題(DFJSP)例項,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”:提供完整結構資訊反而會降低效能,且工具增強和細化策略無法可靠提升效果。
文章情報
要點
- DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。
- LLM代理在動態排程中表現出“可觀察性悖論”:完整資訊不如簡潔資訊有效。
- 工具增強和細化策略無法持續提升LLM代理效能,多數代理不如強排程基線。
為什麼重要
這條新聞值得關注,因為DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
動態靈活作業車間排程問題(DFJSP)是製造業與物流領域的核心最佳化難題,然而當前基於神經組合最佳化的研究面臨一個根本性的方法論矛盾:一方面,靜態基準測試因缺乏多樣性而容易導致演算法過擬合;另一方面,未校準的隨機例項生成器引入大量噪聲,使得演算法的真實能力難以被準確評估。為了解決這一問題,研究者提出了DynaSchedBench——一個專門為DFJSP設計的診斷框架,透過系統性控制例項生成過程來確保評估的公平性與可重複性。
DynaSchedBench的關鍵創新在於其順序事件空間校準器(Sequential Event-Space Calibrator, SESC)。與傳統的引數取樣方法不同,SESC透過計算一個新的排程壓力指數(Schedule Stress Index, SSI)來量化例項的困難程度,並據此對例項進行難度分層。實驗結果顯示,SESC在計算效率上顯著優於基於進化演算法的基線方法,並且能夠穩定收斂至預設的目標指標。框架本身採用模組化設計,整合了例項生成、基於快照的模擬、排程代理、效能評估以及結果視覺化等元件,從而為測試反應式策略與前瞻性策略提供了統一平臺。
利用這一校準環境,研究者系統評估了多種基於大型語言模型(LLM)的排程代理。他們發現了一個反直覺的現象,即“可觀察性悖論”(Observability Paradox):在逐步進行的線上決策過程中,向代理提供完整的結構化資訊(即所謂的“神諭”訪問)反而會損害其決策效能,表現遠不如僅提供簡潔資訊的情況。此外,儘管耗費了大量的計算令牌,使用工具增強或細化策略也未能持續提升代理的效能。事實上,大多數LLM代理無法穩定超越經典的強排程基線(如最短處理時間優先等規則),其行為模式更接近於魯棒的啟發式近似器,而非真正意義上的優越最佳化器。
這一發現為將LLM應用於組合最佳化領域提出了重要警示,同時也凸顯了在動態排程問題中設計狀態表徵時需要格外謹慎。DynaSchedBench提供的校準評估環境,有望推動該領域走向更加嚴謹和標準化的研究正規化。