2026-05-28 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

微调视觉语言模型用于理解当前损伤并利用质量守护代理进行优先级评分

本研究提出了一种利用微调视觉语言模型（VLM）自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调，基于多达4000张桥梁损伤图像和检查文本记录，并在800张图像的测试集上评估。实验表明，2000个训练样本即可在2.9小时内达到接近最优的验证损失，超过2000后收益递减。此外，引入了一个两阶段质量守护代理，使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。

来源arXiv Computer Vision作者: Takato Yasuno

日本的法律要求每五年对桥梁进行强制性的目视检查，但不同工程师分配的定性损伤评级（a-e级别）存在显著的评分者间变异性，这是基础设施一致性管理的关键障碍。熟练工程师的老龄化进一步威胁了检查能力。本文提出了一种使用微调视觉语言模型（VLM）自动化桥梁损伤理解和修复优先级评分的方法。

研究人员使用QLoRA对LLaVA-1.5-7B进行了微调，训练数据最多包含4000对桥梁损伤图像和检查文本记录，并在固定的800张图像测试集上评估。模型输出自然语言描述，识别结构构件和损伤模式，然后基于规则的评分引擎计算五级修复优先级指数。渐进式训练研究（1k/2k/3k/4k样本）显示，2000个训练样本在仅2.9小时的训练中即可达到接近最优的验证损失；超过2000后，验证损失每增加一倍样本仅改善不超过0.2%，表现出明显的收益递减。此外，在保留测试集上的语义相似性在3000样本时达到峰值（0.6909），在4000样本时下降（0.6739），表明质量策划的中等规模数据优于更大但噪声更多的语料库。结合torch.compile()和批处理（batch_size=8）的推理优化实现了每张图像10.06秒，比未优化基线降低了70.2%。

该方法有助于桥梁检查中的数据治理，减少评分者间变异性，并提供AI辅助分类来增强专家工程师的检查工作流程。此外，作者引入了一个两阶段质量守护代理，使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出，防止来自损坏或无法识别图像的虚假分数。该研究为自动化基础设施检查提供了有前景的方向，特别是在熟练检查人员短缺的情况下。

然而，该研究也存在一些局限性。例如，训练数据仅包含有限类型的桥梁损伤，可能无法覆盖所有实际场景。此外，模型的性能高度依赖于训练数据的质量和多样性，未来需要更多来自不同桥梁和损伤类型的样本来验证其泛化能力。另外，虽然质量守护代理能够过滤部分低质量输出，但误拒绝可能影响整体效率。尽管如此，这项工作代表了将大型视觉语言模型应用于关键基础设施维护的重要一步，有望在减少人工检查负担的同时提高评估一致性。