Page 54 - 2025年第56卷第9期
P. 54

h
              在通道 c、高度索引第 i 行、宽度索引第 w 列的像素值; z c (h) 为通道 c 中,第 h 行所有列的像素平均值
                                                                                    h
                            w
                                                                                           w
             (横向池化);z c (w) 为通道 c 中,第 w 列所有行的像素平均值(纵向池化),z c (h) 与 z c (w) 为通道 c 中沿
              高度和宽度的池化核权重,捕捉图像的全局特征(如水平和垂直裂缝)。
                  该图像在经过高度和宽度方向的池化操作后,其维度由 C × H × W 转换为 C × H × 1 和 C × 1 × W
              的两个输出维度,该输出维度能够获取精确的位置信息并保持长期的依赖。
                  坐标注意力的生成首先需要将高度和宽度得到的坐标信息进行拼接,随后对其进行卷积操作和非
              线性激活操作,融合后的特征图 f 包含空间位置和通道信息,如下式所示:
                                                              h  w

                                                     f = δ (F 1 ( z ,z ))                              (3)
              式中:δ 为非线性激活函数,以增加模型的特征表达能力;F 1 (·) 为卷积函数,用于融合横向和纵向的
              池化信息。
                  最后,该通道上高度为 i,宽度为 j 的特征 x c (i,j ) 经过输出模块变换为 y c (i,j ),如下式所示:
                                               h         h    w          w

                                              g = σ (F h ( f )), g = σ (F w ( f ))                     (4)
                                                                 h     w

                                              y c (i,j ) = x c (i,j ) × g c (i) × g c ( j )            (5)

              式中:F h 、F w 为针对不同方向的卷积操作,生成注意力权重;σ 为 Sigmoid 激活函数,将权重限制在
              [ 0,1]内;x c (i,j ) 为输入图像在通道 c、高度索引第 i 行、宽度索引第 j 列处的值;y c (i,j ) 为经过注意
                                             w
                                      h
              力模块变量后的特征值;g c (i) 和 g c ( j ) 分别为通道 c 中,沿高度和宽度的注意力权重。
              2.2 混凝土结构多视图三维重建和缺陷定位量化 基于计算机视觉理论的混凝土结构多视图三维重建
              方法,通过几何关系运算恢复目标对象的三维空间坐标信息,同时恢复相机在各个拍摄时刻的位姿信
              息,其主要步骤可概括为特征匹配、稀疏重建、稠密重建、点云网格化和纹理映射,见图 3。








                                              图 3 基于多视图立体视觉的三维重建流程

                  特征匹配即对该数据集进行图像两两匹配,计算两幅图像中存在的共有特征点并将其配对。引入尺
              度不变特征转换算法作为混凝土结构航拍图像特征匹配的计算方法。核心思想是在不同尺度空间上寻找
              关键点,通过利用检测图像中的局部特征,在尺度空间中检索极值点,提取出其位置、尺度和旋转不
              变量。
                  稀疏重建的目的在于将这些特征点从二维图像中投影到三维空间中,该过程又被称为运动恢复结
              构。通过针孔相机理论,建立成像平面二维坐标到真实世界三维坐标的映射关系,进而估计相机位姿
              信息。在明确相机位姿信息后,将匹配得到的共有特征点进行前方交会获得三维点坐标。通过稀疏重
              建可以获得结构的稀疏点云模型,该模型点云数量较少,仅包含图像数据集中特征点的投影,只能表
              征结构的大致形状与空间位置,无法满足视觉三维重建所需的精度与细节信息,需要对点云进行稠密

              化 , 即 将 航 拍 图 像 集 中 每 一 个 像 素 均 投 影 到 三 维 空 间 中 , 这 个 步 骤 称 为 稠 密 重 建(Multiple View
              Stereo,MVS),旨在利用图像集的相机姿态信息和图像特征点的密集对应关系,实现对稠密三维点云
              模型的构建。本文采用基于深度图融合的 PatchMatch 算法计算每张输入图像的深度图,将所有像素点
              反向投影至三维空间,生成三维点云模型。
                  通过稠密重建可获取混凝土结构的密集点云模型,但该点云模型是离散结构,无法完成后续的纹
              理映射工作,需要进一步将点云连接,形成网格化模型,达到离散到连续的目的。本文采用泊松重建
              方法,根据具有法线信息的稠密点云,来求解物体的向量场。
                  混凝土结构网格模型仅能表征混凝土结构特征,无法描述表面纹理细节信息,故需要进行纹理
              重建以生成真实的实景模型。本文采用基于映射的纹理重建方法。在纹理映射时,输入为初步构建的
              混凝土结构网络模型,其包括了大量的面片和顶点,每个顶点为一组三维空间坐标点,面片为三个顶

                — 1158   —
   49   50   51   52   53   54   55   56   57   58   59