Page 18 - 2023年第54卷第5期
P. 18

展,使用计算机视觉方法分析坝面施工机械活动逐渐成为一种有效的手段                                   [5,8 - 9] ,如施工材料或机械的
              图像分类方法       [10 - 12] ,机械种类、数量和位置的目标检测算法              [5,13 - 15] ,施工机械、工人轨迹的目标跟踪
              算法  [16 - 18] ,挖掘机姿态的关键点姿态识别算法             [19 - 20] 等。较少研究综合运用多种视觉方法分析施工机
              械或人员活动,如 Dominic等          [18] 综合运用 RetinaNet、T - CNN和隐马尔可夫模型对近景视频中挖机和
              运输车进行目标检测与跟踪,来分析其不同活动状态;Dominic等                              [21] 综合应用 YOLOv3、AlphaPose、
              i3D和 MS - TCN网络对近景视频中的工人进行目标检测与姿态估计来确定活动状态;Jinwoo等                                    [22] 综合
              应用 FasterRCNN、TLD和 CNN - LSTM 对 近景视 频 中挖 机 进 行 目 标 检 测、跟 踪 与 动 作 识 别;Jinwoo
              等  [23] 使用 TLD与 CNN - LSTM网络对近景视频中的运输车和挖机进行目标跟踪与动作识别。现有研究
              多对近景视频进行目标检测、跟踪、姿态估计和活动推理等,这些近景视频中机械或人员目标较大、
              数量较少,较易识别。而大坝施工视频监控通常采用远距离高清摄像头进行大范围监控,导致监控场
              景大、目标数量多且目标较小;且坝面运输车缺乏标准化的卸料活动规范,卸料形式呈现复杂性,如
              许多运输车通常在料斗尚未降下时就离开卸料区域,仅通过判断料斗抬升和降下的动作很难准确判断
              卸料结束状态,还需要进行运输车种类识别、轨迹跟踪和姿态识别等多个视觉任务并进行合理的上下
              文推理,才能准确地识别运输车卸料活动,这给卸料活动的实时精准分析带来挑战。
                  针对上述难题,提出融合多目标跟踪、关键点检测和细粒度分类的大场景监控视频运输车卸料识
              别方法。多目标跟踪是指在给定的视频帧序列上对多个目标边界框进行持续定位                                       [18,24] 的方法,相比传
              统的光流法、卡尔曼滤波和粒子滤波等目标跟踪方法,融合深度学习的目标跟踪算法性能更优                                             [25] 。其
              中 ByteTrack在 MOT17、MOT20和 BDD100K等数据集上表现出色,已被证明是当前多目标跟踪最优越
              的算法   [24] 。但 ByteTrack多应用于城市车辆或人员跟踪,尚缺乏针对大场景监控视频中施工机械的多
              目标跟踪研究。关键点检测是物体姿态估计的核心                        [26] ,主要分为自上而下和自下而上的算法两类                   [27] ,
              前者首先采用目标检测算法将物体检测出来,再对每个物体的关键点进行检测                                     [27] ,而后者则是先识别
              出所有物体的关键点,再通过匹配算法将其分配到所属物体上                              [27] 。考虑到运输车车头和车尾关键点检
              测是在多目标跟踪的基础上进行的,因此本研究适合采用自上而下的算法,其中 HRNet已被证明是当
              前最先进特征点检测算法            [26] ,但缺乏针对大场景监控视频中运输车头部和尾部关键点检测的研究。准
              确识别料斗从未抬升到抬升的类别转变是识别运输车卸料的关键,它是对运输车进行细粒度分类的过
              程。现有的细粒度分类多基于深度学习实现,主要分为具有定位分类子网络、端到端特征编码和使用
              外部信息等算法        [28] 。端到端特征编码的算法可保证在视频中实时分类的计算效率                            [28 - 29] ,更适用于运
              输车料斗抬升的细粒度分类任务。其中,DCL细粒度分类网络在综合精度和效率方面表现最优                                             [28 - 29] ,
              使用 DCL来实现运输车料斗是否抬升的分类判断。
                  综上,本研究框架如图 1所示,首先采用 ByteTrack算法                     [24] 对大场景中运输车进行多目标跟踪,
                                                                                 [26]
              其次为了确定运输车前进或后退的行进状态,通过关键点检测网络 HRNet 确定车头和车尾,然后利
              用细粒度分类网络 DCL         [29] 判断运输车料斗抬升状态,最后通过上下文推理来确定运输车卸料开始和结
              束时间,进而完成坝面监控视频中的运输车卸料识别。

              2 融合 ByteTrack、HRNet与 DCL的大场景监控视频运输车卸料识别方法



              2.1 基于 ByteTrack的大场景监控视频运输车多目标实时跟踪 ByteTrack使用 YOLOX                           [30] 作为检测器,
              并通过 Byte算法对相邻时刻的跟踪对象进行数据关联,更高效地实现了对多目标的持续稳定跟踪                                       [24] 。本研
              究使用 CSPDarknet作为 YOLOX特征提取骨干网络                [30] 。为了兼顾大场景视频监控 1920 × 1080的图像分
              辨率及多种视觉识别算法的计算速度,采用 960 × 544图像大小作为网络输入,并在网络输出端设置 3
              个尺度的解耦头输出锚框信息。Byte算法根据检测框置信度得分,首先对高分检测框和所有轨迹进行
              匹配;其次对低分检测框和未匹配成功的剩余轨迹进行匹配                             [24] 。对两次匹配都未成功的轨迹保留 30帧
              参与后续匹配。对高分检测框中未匹配成功且存在超过两帧的目标初始化为新的轨迹                                       [24] 。ByteTrack实现
              了监控视频中运输车多目标实时跟踪与行驶轨迹记录,为卸料判断提供实时的位置和行驶速度等信息。

                     0
                —  5 2  —
   13   14   15   16   17   18   19   20   21   22   23