Page 53 - 2025年第56卷第9期

P. 53

杂、光照不均匀以及多尺度缺陷信息融合上存在局限性，难以充分利用深层语义特征来精准识别缺
陷。为克服上述局限，本文采用 UNet3+模型，结合无人机航拍视角下的缺陷特征进行改进。通过引入
全尺度跳跃连接（full-scale skip connections）和全尺度深度监督（full-scale deep supervision）机制，
UNet3+模型可提高多维度信息检索能力。全尺度跳跃连接模块确保从编码器的所有尺度特征都能够直
接用于解码器中，增强不同尺度间信息传递和融合。而全尺度深度监督机制使得在模型训练过程中各
层次的解码器都能受到监督，以优化混凝土缺陷特征提取过程，提升微小缺陷分割精度。

图 1 基于改进 UNet3+网络缺陷分割模型

缺陷分割是图像分割中的一个重要任务，
需要精确地识别出图像中的缺陷区域，并与背
景进行有效区分。但由于混凝土结构缺陷的形
态特征通常呈现细长特征，传统特征提取方法
难以准确获取其特征图信息。坐标注意力机制
的示意图如图 2所示，其中，r为通道压缩比，用
于在注意力生成过程中降低通道维度，减少计算
量并提高模型效率。相关理论可参考文献［20］。
坐标注意力机制通过利用空间坐标信息，可更
好地捕捉缺陷的细节和形状特征。假设输入图
像的维度为 C × H × W （C 为图像通道数，H 为
图像高度，W 为图像宽度），将其每一个通道 x c
的全局池化操作分解为沿着 X 和 Y 方向的一维
池化操作，如下式所示：图 2 坐标注意力机制原理［20］
H W
1
z c = ∑∑ x c (i， j ) （1）
H × W
i = 1 j = 1
式中：C 为图像的通道数量，RGB 图像有 3 个通道（红、绿、蓝），灰度图有 1 个通道；H 为高度，表示
图像的行数，即图像在垂直方向上的像素数量；W 为宽度，表示图像的列数，即图像在水平方向上的

像素数量。每个通道 c 存储不同的特征信息（如颜色、纹理），H、W 对应空间位置。通过尺寸为 (H，1)
和 (1，W ) 的池化核对 X 方向和 Y 方向的每一个通道进行平均池化计算，其高度为 h 和宽度为 w 的池化
输出如下所示：

h 1 w 1
z c (h) = ∑ x c (h， j )， z c (w) = ∑ x c (i， w) （2）
W H
0 ≤ j < W 0 ≤ i < H
式中：x c (h，j ) 为输入图像在通道 c、高度索引第 h 行、宽度索引第 j 列的像素值；x c (i，w) 为输入图像
— 1157 —

48 49 50 51 52 53 54 55 56 57 58