Page 41 - 2025年第56卷第9期
P. 41

(3)工程案例:依托我国西南某水电站地下洞室群工程,开展基于实时多模态数据的地下洞室施
              工机械活动识别深度学习模型效果研究,验证本文所提方法的优越性和有效性。



















































                                                       图 1 研究框架



              3 施工机械活动多模态数据采集及预处理


              3.1 多模态数据采集 基于本课题组开发的多模态数据采集手机应用程序                                   [17] ,将搭载该应用程序的
              手机固定于施工机械驾驶舱内,利用智能手机内置的陀螺仪、加速度计、麦克风和摄像头,采集工作
              过程中产生的视觉、声学和运动学数据。该应用程序通过调用智能手机的惯性测量单元(IMU)来获取
              运动学信号,包括加速度(Ax,Ay,Az)和角速度(Gx,Gy,Gz)六种时间序列数据;通过调用手机内置
              的麦克风采集施工环境中的声音信号并生成音频数字信号序列;通过手机摄像头拍摄驾驶舱的第一视
              角视频以获取视觉信号。
              3.2 多模态数据预处理 (1)视觉数据预处理:视觉数据在输入特征提取模型之前,需要进行清洗和
              归一化处理,以确保数据格式和特征适合模型进行有效地学习。首先采用 OpenCV 从每个视频片段均
              匀采样 50 帧图片,视频帧的原始输入大小为 455×256;为提高模型的泛化能力,对提取帧进行随机翻
              转、随机裁剪和色彩亮度调整以模拟不同的视角和距离,从而增加样本多样性。
                  (2)声学数据预处理:声学数据输入特征提取模型前需经过梅尔滤波处理。由于人耳对低频声音

                                                                                               — 1145  —
   36   37   38   39   40   41   42   43   44   45   46