2026-05-28 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先順序評分

本研究提出了一種利用微調視覺語言模型（VLM）自動化橋樑損傷理解和修復優先順序評分的方法。透過使用QLoRA對LLaVA-1.5-7B進行微調，基於多達4000張橋樑損傷影像和檢查文本記錄，並在800張影像的測試集上評估。實驗表明，2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失，超過2000後收益遞減。此外，引入了一個兩階段質量守護代理，使用微調的Swallow-8B SLM在優先順序評分前拒絕低質量VLM輸出。

來源arXiv Computer Vision作者: Takato Yasuno

日本的法律要求每五年對橋樑進行強制性的目視檢查，但不同工程師分配的定性損傷評級（a-e級別）存在顯著的評分者間變異性，這是基礎設施一致性管理的關鍵障礙。熟練工程師的老齡化進一步威脅了檢查能力。本文提出了一種使用微調視覺語言模型（VLM）自動化橋樑損傷理解和修復優先順序評分的方法。

研究人員使用QLoRA對LLaVA-1.5-7B進行了微調，訓練資料最多包含4000對橋樑損傷影像和檢查文本記錄，並在固定的800張影像測試集上評估。模型輸出自然語言描述，識別結構構件和損傷模式，然後基於規則的評分引擎計算五級修復優先順序指數。漸進式訓練研究（1k/2k/3k/4k樣本）顯示，2000個訓練樣本在僅2.9小時的訓練中即可達到接近最優的驗證損失；超過2000後，驗證損失每增加一倍樣本僅改善不超過0.2%，表現出明顯的收益遞減。此外，在保留測試集上的語義相似性在3000樣本時達到峰值（0.6909），在4000樣本時下降（0.6739），表明質量策劃的中等規模資料優於更大但噪聲更多的語料庫。結合torch.compile()和批處理（batch_size=8）的推理最佳化實現了每張影像10.06秒，比未最佳化基線降低了70.2%。

該方法有助於橋樑檢查中的資料治理，減少評分者間變異性，並提供AI輔助分類來增強專家工程師的檢查工作流程。此外，作者引入了一個兩階段質量守護代理，使用微調的Swallow-8B SLM在優先順序評分前拒絕低質量VLM輸出，防止來自損壞或無法識別影像的虛假分數。該研究為自動化基礎設施檢查提供了有前景的方向，特別是在熟練檢查人員短缺的情況下。

然而，該研究也存在一些侷限性。例如，訓練資料僅包含有限型別的橋樑損傷，可能無法覆蓋所有實際場景。此外，模型的效能高度依賴於訓練資料的質量和多樣性，未來需要更多來自不同橋樑和損傷型別的樣本來驗證其泛化能力。另外，雖然質量守護代理能夠過濾部分低質量輸出，但誤拒絕可能影響整體效率。儘管如此，這項工作代表了將大型視覺語言模型應用於關鍵基礎設施維護的重要一步，有望在減少人工檢查負擔的同時提高評估一致性。