一种基于视觉语言模型的建筑表观病害检测与评估方法

申请号：CN202511018925

申请日期：2025-07-23

公开号：CN121032910A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于视觉语言模型的建筑表观病害检测与评估方法，输入模块接收建筑表面的高分辨率图像和相关文本描述，并将其转化为可供后续处理的格式，以确保模型充分获取视觉和语言信息。编码器模块提取建筑图像的多尺度特征和文本描述中的语义特征，从而增强特征表达能力。双分支多模态融合器有效整合视觉特征和文本特征，以提升缺陷检测的表现。先验经验学习模块通过存储历史经验和生成动态软标签来优化模型性能。多任务训练机制则通过同时学习多个相关任务，提升模型的综合性能和鲁棒性，并分两个阶段进行训练，确保有效特征提取和进一步优化。提升了病害检测方法的效率和准确性，适于工业上大规模使用与推广。

技术关键词

多尺度特征注意力编码器模块建筑视觉特征文本编码器语义特征多模态特征图像多尺度分支融合器融合语义文字特征输出模块输入模块多层感知器