Page 53 - 2025年第56卷第9期
P. 53
杂、光照不均匀以及多尺度缺陷信息融合上存在局限性,难以充分利用深层语义特征来精准识别缺
陷。为克服上述局限,本文采用 UNet3+模型,结合无人机航拍视角下的缺陷特征进行改进。通过引入
全 尺 度 跳 跃 连 接(full-scale skip connections)和 全 尺 度 深 度 监 督(full-scale deep supervision)机 制 ,
UNet3+模型可提高多维度信息检索能力。全尺度跳跃连接模块确保从编码器的所有尺度特征都能够直
接用于解码器中,增强不同尺度间信息传递和融合。而全尺度深度监督机制使得在模型训练过程中各
层次的解码器都能受到监督,以优化混凝土缺陷特征提取过程,提升微小缺陷分割精度。
图 1 基于改进 UNet3+网络缺陷分割模型
缺陷分割是图像分割中的一个重要任务,
需要精确地识别出图像中的缺陷区域,并与背
景进行有效区分。但由于混凝土结构缺陷的形
态特征通常呈现细长特征,传统特征提取方法
难以准确获取其特征图信息。坐标注意力机制
的示意图如图 2所示,其中,r为通道压缩比,用
于在注意力生成过程中降低通道维度,减少计算
量并提高模型效率。相关理论可参考文献[20]。
坐标注意力机制通过利用空间坐标信息,可更
好地捕捉缺陷的细节和形状特征。假设输入图
像的维度为 C × H × W (C 为图像通道数,H 为
图像高度,W 为图像宽度),将其每一个通道 x c
的全局池化操作分解为沿着 X 和 Y 方向的一维
池化操作,如下式所示: 图 2 坐标注意力机制原理 [20]
H W
1
z c = ∑∑ x c (i, j ) (1)
H × W
i = 1 j = 1
式中:C 为图像的通道数量,RGB 图像有 3 个通道(红、绿、蓝),灰度图有 1 个通道;H 为高度,表示
图像的行数,即图像在垂直方向上的像素数量;W 为宽度,表示图像的列数,即图像在水平方向上的
像素数量。每个通道 c 存储不同的特征信息(如颜色、纹理),H、W 对应空间位置。通过尺寸为 (H,1)
和 (1,W ) 的池化核对 X 方向和 Y 方向的每一个通道进行平均池化计算,其高度为 h 和宽度为 w 的池化
输出如下所示:
h 1 w 1
z c (h) = ∑ x c (h, j ), z c (w) = ∑ x c (i, w) (2)
W H
0 ≤ j < W 0 ≤ i < H
式中:x c (h,j ) 为输入图像在通道 c、高度索引第 h 行、宽度索引第 j 列的像素值;x c (i,w) 为输入图像
— 1157 —

