AI News HubLIVE
站内改写

DynaSchedBench:校準的動態調度基準與基於LLM的調度代理中的可觀察性悖論

本文提出DynaSchedBench框架,通過順序事件空間校準器(SESC)和調度壓力指數(SSI)嚴格生成動態靈活作業車間調度問題(DFJSP)實例,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM調度代理存在“可觀察性悖論”:提供完整結構信息反而會降低性能,且工具增強和細化策略無法可靠提升效果。

文章情報

工程師進階

要點

  • DynaSchedBench利用SESC和SSI生成難度分層的DFJSP實例,計算效率優於進化基線。
  • LLM代理在動態調度中表現出“可觀察性悖論”:完整信息不如簡潔信息有效。
  • 工具增強和細化策略無法持續提升LLM代理性能,多數代理不如強調度基線。

為甚麼重要

這條新聞值得關注,因為DynaSchedBench利用SESC和SSI生成難度分層的DFJSP實例,計算效率優於進化基線。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

動態靈活作業車間調度問題(DFJSP)是製造業與物流領域的核心優化難題,然而當前基於神經組合優化的研究面臨一個根本性的方法論矛盾:一方面,靜態基準測試因缺乏多樣性而容易導致算法過擬合;另一方面,未校準的隨機實例生成器引入大量噪聲,使得算法的真實能力難以被準確評估。為了解決這一問題,研究者提出了DynaSchedBench——一個專門為DFJSP設計的診斷框架,通過系統性控制實例生成過程來確保評估的公平性與可重複性。

DynaSchedBench的關鍵創新在於其順序事件空間校準器(Sequential Event-Space Calibrator, SESC)。與傳統的參數採樣方法不同,SESC通過計算一個新的調度壓力指數(Schedule Stress Index, SSI)來量化實例的困難程度,並據此對實例進行難度分層。實驗結果顯示,SESC在計算效率上顯著優於基於進化算法的基線方法,並且能夠穩定收斂至預設的目標指標。框架本身採用模塊化設計,集成了實例生成、基於快照的仿真、調度代理、性能評估以及結果可視化等組件,從而為測試反應式策略與前瞻性策略提供了統一平台。

利用這一校準環境,研究者系統評估了多種基於大型語言模型(LLM)的調度代理。他們發現了一個反直覺的現象,即“可觀察性悖論”(Observability Paradox):在逐步進行的在線決策過程中,向代理提供完整的結構化信息(即所謂的“神諭”訪問)反而會損害其決策性能,表現遠不如僅提供簡潔信息的情況。此外,儘管耗費了大量的計算令牌,使用工具增強或細化策略也未能持續提升代理的性能。事實上,大多數LLM代理無法穩定超越經典的強調度基線(如最短處理時間優先等規則),其行為模式更接近於魯棒的啓發式近似器,而非真正意義上的優越優化器。

這一發現為將LLM應用於組合優化領域提出了重要警示,同時也凸顯了在動態調度問題中設計狀態表徵時需要格外謹慎。DynaSchedBench提供的校準評估環境,有望推動該領域走向更加嚴謹和標準化的研究範式。