Page 45 - 2025年第56卷第9期
P. 45
4.2.3 基于多头注意力机制的单模态原始特征与多模态混合特征融合 为建立不同模态间的长时依赖
关系,本文设计了一种有效的特征融合策略,结合多头注意力机制每个独立的注意力头可以学习到不
同特征表示的优势,通过分析三种单模态特征和三种融合模态特征间存在的内部相关性,计算其对于
最终活动识别所贡献的注意力权重,并按注意力权重进行重新分配,得到蕴含丰富特征信息的多模态
融合特征 Z,以提升模型识别关键特征的能力。
将三种单模态特征和三种融合模态特征进行拼接:
M = Concat( X V ,X A ,X P ,Z V ,Z A ,Z P ) (16)
式中:X V 、X A 、X P 为未经特征交互的视觉、声学、运动学单模态原始特征;Z V 、Z A 、Z P 分别为经跨模
态特征交互处理后的视觉、声学、运动学多模态混合特征。
多头注意力机制能够从多个子空间并行捕获不同的特征关系,更加全面地理解信息,这对于分析
增强后的单模态特征向量和原始特征向量间的相互作用十分重要。通过这种方式,每个头的注意力输
出根据它们的重要性进行加权,从而为活动分类任务提供更丰富的特征表示。
在多头注意力机制中,每个头会分别计算自己的注意力输出,也会采用不同的权重矩阵。
Q K V
对于每个头 i,进行线性变换:Q i = XW i ,K i = XW i ,U i = XW i
每个头的注意力值输出:head i = Attention (Q i ,K i ,U i )
拼接所有头的输出,并进行线性变换,得到最终的多层次融合特征向量:
Z = MultiHeadOutput = Concat(head 1 ,head 2 ,⋯,head h )W O (17)
O
式中 W 为输出线性变换的权重矩阵,用于将拼接后的结果映射到期望的输出维度,它在模型训练过
程中学习得到。
4.3 机械活动状态识别 活动识别分类层的主要任务是将融合多模态特征输入到全连接层网络中,整
合每种模态内部以及各种模态之间的交互信息,最后通过 softmax 函数输出活动识别分类结果。
5 案例分析
为验证本文所提方法的有效性,依托我国西南某水电站地下洞室群工程,开展基于实时多模态数
据的地下洞室施工机械活动识别深度学习模型效果研究。地下工程施工机械活动多模态数据集利用本
实验室开发的手机应用程序进行采集。在地下洞室施工过程中,清渣是钻爆法施工的重要工序,以清
渣机械装载机为例,验证本研究提出的基于实时多模态数据的地下洞室施工机械活动识别深度学习模
型的实际效果。
5.1 多模态施工机械活动识别深度学习模型的构建 依托实际地下工程,在装载机施工过程中采集
4 h 的运动学、声学和视觉数据。为了保证机械活动标签的准确性,需要手动处理少量异常值及缺失
值。训练集、验证集、测试集按照 60%∶20%∶20% 进行划分。装载机活动标签分为“空载运输”“挖
掘土料”“重载运输”“倾倒土料”和“静止”5 种活动状态,活动标签由人工进行标注,以确保标签
的准确性。
模型的优化器选择为 Adam,初始学习率
设 置 为 0.001, batchsize 设 置 为 32, 最 大 epoch 表 1 试验环境设置
设置为 100,损失目标函数设置为交叉熵 Cros⁃ 名称 配置
sEntropy。试验过程中所需的软件和硬件的环 CPU 16 vCPU Intel(R)Xeon(R)Gold 6430
境配置如表 1 所示。 GPU RTX 4090(24GB)
在深度学习中,超参数的设置十分重要, 内存 120GB
本文模型的主要超参数如表 2 所示。 python 环境 Python3.8.10
5.2 施工机械活动识别结果 在试验过程中, 操作系统 Ubuntu Linux 20.04.4 LTS
本文所提模型随着训练样本训练次数的增加, 开发工具 Pycharm professional 2023.1
— 1149 —

