Page 40 - 2025年第56卷第9期
P. 40
类。Chris 等 [12] 利用基于音频的贝叶斯系统来估计施工机械的循环周期和生产率,并结合马尔可夫滤
波器使系统自动更新。Sherafat 等 [13] 利用卷积神经网络,实现了在不需要预先分离声音信号的情况下
识别施工现场多种设备的不同活动。然而,在地下工程中,封闭环境下多种施工机械同时作业使得
声 学 信 号 混 杂 , 且 噪 音 干 扰 极 大 , 基 于 声 学 的 活 动 识 别 方 法 在 地 下 施 工 场 景 中 并 未 表 现 出 明 显
优势。
地下洞室群洞内光照条件差、粉尘浓度高、封闭空间内声音混杂,基于视觉、运动学等单一模态
[2]
数据的机械活动识别方法,由于缺少其他模态数据的补充和佐证,以致识别鲁棒性不足 。多模态数
据能够从不同视角反映施工机械的同一活动,将其引入到机械活动识别任务中有助于提升识别精
度 [14] 。因此,近年来基于多模态数据的机械活动识别开始逐渐成为研究热点。国内外学者发现,引入
多模态数据能够整合不同来源的信息,使系统在多个层面上理解设备的运作状态,从而更准确地判断
设备的活动类型,大大提升机械活动识别的准确性和系统的鲁棒性 [15] 。Sherafat 等 [16] 在 2019 年提出了
一种集成音频和运动学两种模态数据的系统,该系统通过线性差值同步两种模态数据的采样频率并进
行特征级融合,用于分析施工机械的活动情况并预估其生产效率。2021 年,Kim 等 [17] 利用上下文加权
平均分类,在决策层统计视觉和运动学两种模态的贡献,综合判定机械活动状态,提高了施工机械活
动识别的准确率。张君等 于 2022 年提出用于提取运动学-听觉数据特征的堆石坝施工机械活动状态
[4]
识别模型,该模型集成长短期记忆循环神经网络与深度卷积神经网络,前者可精确感知施工机械运动
方向,后者可从声音模态中感知施工机械振动状态。Jung 等 [18] 于 2023 年开发了一种基于视觉和听觉的
建筑设备动作检测学习网络模型,将边界框回归和类概率回归有效地融合在一起,可同时执行施工机
械定位任务和活动分类任务。
然而,上述多模态数据融合方式也存在一些局限:特征级融合需对不同模态的数据进行手动对
齐,增加了计算复杂度,且冗余向量的输入增加了模型的计算复杂度和过拟合的风险 [19] ;决策级融合
割裂了模态间的关联性,导致模型无法充分利用模态间的互补信息。现有融合方式的局限催生了基于
注意力 [20] 的融合方式,注意力机制能够使模型动态地聚焦于与当前任务最相关的模态,给予对任务贡
献较大的数据更高的关注权重,其中最具代表性的就是 Transformer 模型 [20] ,它能够在不同层次上进行
模态间的信息交互(包括但不限于特征级融合和决策级融合),理解不同模态数据间的依赖性和互补
性,实现更精确的数据解析。
针对上述不足,本文从多模态 Transformer 模型 [21] 中汲取灵感,提出基于实时多模态数据的地下洞
室施工机械活动识别深度学习模型。首先,利用本课题组开发的多模态数据采集手机应用程序 [13] 采集
地下施工机械工作时产生的视觉、声学、运动学数据;其次,提出基于实时多模态数据的地下洞室施
工机械活动识别深度学习模型,利用跨模态注意力、自注意力和多头注意力机制进行三个层次的模态
特征融合,深度捕捉不同模态数据间的依赖和关联,实现多模态数据深层次的交互和整合。
2 研究框架
本文所提出的基于实时多模态数据的地下洞室施工机械活动识别深度学习模型框架如图 1 所示。
(1)数据采集及预处理:在地下工程施工机械上安装集成传感器,实时采集机械施工过程中产生
的视觉、声学和运动学数据,并对三种模态的数据进行预处理,以满足模型输入的要求。
(2)基 于 实 时 多 模 态 数 据 的 地 下 洞 室 施 工 机 械 活 动 识 别 深 度 学 习 模 型 : 首 先 , 分 别 采 用 S3D、
VGGish、Conformer 模型提取视觉、声学、运动学数据的单模态特征;其次,基于跨模态注意力构建
跨模态信息交互机制,对多模态数据进行交互建模;随后,通过自注意力机制对目标模态相同的两个
特征矩阵进行整合,得到富含模态间丰富关联的多模态混合特征;进一步地,采用多头注意力机制捕
捉三种单模态原始特征和混合特征间存在的相关性,识别任务贡献度高的模态信息,得到最终的多模
态融合特征;最后通过全连接层和 softmax 函数输出施工机械活动识别分类结果。
— 1144 —

