Page 21 - 2023年第54卷第5期
P. 21
t 0 t 0
→
t 0 k
∑ up(t)>N&& ∑ Action(t)<N && max ( τ cc ) >N p1 (3)
f1
u
k ∈{t 0 - 1,t 0 - 2,...,t 0 - N r }
t = t 0 - N r t = t 0 - N r
t 0
( 11)判断料斗之前未抬升是否成立,即表达式 ∑ up(t)<N 。料斗在前 N条记录中抬升次数低
d
r
t = t 0 - N r
于阈值 N,若该表达式成立进入(12),若不成立进入(13);
d
t 0
(12)判断运输车持续后退和停止是否成立,即表达式 ∑ Action(t)>N 。运输车在前 N条记录
b
r
t = t 0 - N r
中 Action(t)累加和超过阈值 N,若该表达式成立则判断为 1 - 2并更新 T_end和 pos,若不成立则判断
b
为 5 - 2;
(13)判断运输车持续前进和停止且离开卸料区是否成立,即式(4)。前 N条记录中 Action(t)累加
r
和小于阈值 N 且距离卸料区的最大距离超过阈值 N ,若该表达式成立则判断为 3 - 3并更新 T_end和
f2 p2
leave = 1 ,若不成立则判断为 2并更新 T_end;
t 0
∑ Action(t)<N && max ( loc(t) - pos)>N p2 (4)
f2
t ∈{t 0 ,t 0 - 1,…,t 0 - N r }
t = t 0 - N r
(14)判断视频是否结束,若结束则退出,若未结束则进入下一时刻 t = t + 1的视觉识别和卸料状
0
态判断。
3 工程应用
以两河口水电站坝面施工的大场景监控视频为研究对象,采集了多个不同日期分辨率为 1920 ×
1080的视频片段,经过拆帧和人工筛选分别制作成运输车多目标跟踪数据集、运输车车头车尾关键点
检测数据集和运输车料斗抬升细粒度分类图像数据集,通过迁移学习分别验证 ByteTrack、HRNet和
DCL算法在大场景视频监控下大坝运输车卸料识别任务中的可行性和有效性。此外,再采集了 4个总
时长 140min11s的视频片段用于验证提出方法的有效性和准确性。所有实验在配置为 IntelXeon(R)
Gold6132CPU@2.60GHz,128G内存,2 × NVIDIAQuadroGV100显卡,Ubuntu16系统,使用 Python
语言和 PyTorch深度学习框架完成计算。
3.1 ByteTrack运输车多目标跟踪结果
(1)多目标跟踪数据集准备。共采集 24个视频片段,拆帧时每 10帧保留一张图片,共计 59607
张图片用于构造运输车多目标跟踪数据集。使用 DarkLabel工具对采集视频进行标注。其中,14个视
频片段共计 52643张图片作为训练集,4个视频片段共计 900张图片作为验证集,6个视频片段共计
6064张图片作为测试集。
( 2)实验结果分析。使用迁移学习方法对 ByteTrack网络进行训练,加载 COCO数据集中预训练好
的 YOLOX模型权重,设置最大训练次数为 80个 epoch,学习率使用带有 1个 epoch的 warmup的余弦
调度策略,第一个 epoch后从 0.0005开始衰减,前 70轮训练中使用 Mosaic数据增强 [24] ,Batch为 32,
SGD优化器。
多目标跟踪测试结果如图 2所示,分别展示了测试集中两个视频片段,从左至右按时间顺序排
列。第一行视频片段中有 15辆运输车,其中一辆漏检导致跟踪失败(黑圈表示)。第二行中一辆运输
车在跟踪过程中漏检几帧(黑圈表示),后续又准确匹配上。由此可见对大场景监控视频中数量多且目
标小的运输车跟踪是具有挑战性的,检测器的性能对 ByteTrack模型性能影响较大。
多目标跟踪常用的评价指标包括 MOTA、IDF1和 FPS等 [25] 。MOTA和 IDF1是衡量多目标跟踪准
确性的指标 [24] 。其中 MOTA综合考虑了检测器性能和跟踪 ID发生切换的影响,数值越高表示准确度
越好,如式(5)所示。IDF1则侧重于考虑关联的准确性,即目标中匹配正确 ID的比例,综合了 ID准
确率和 ID召回率,数值越高表示跟踪特定目标的精度越好、持续性越久,如式(6)所示。
— 5 2 3 —