Page 42 - 2025年第56卷第9期

P. 42

比高频声音更为敏感，因此频谱图基于梅尔刻度来模拟人类听觉对不同频率声音的敏感程度，能够使
音频分析和处理在感知上更加有效。
首先将音频信号通过短时傅立叶变换（STFT）以获得音频的时频表示，其公式为：
k
N - 1 -i2π N n
x( n + mH) W (n)e （1）
S( m，k) = ∑ n = 1
式中：S( m，k) 为在时刻 m 和频率 k 处的短时傅里叶变换结果；x( n + mH) 为原始信号；n 为窗口内采
样索引；H 为平移步长；W (n) 为窗口函数；N 为窗口长度。
对 STFT 的结果取幅值平方，得到音频信号的功率谱。将频率转换到梅尔尺度，并应用梅尔滤波
器组在梅尔尺度上对功谱图进行加权求和。常用的赫兹（Hz）-梅尔（Mel）变换公式为：
( 700) ( 700)
f
f
m = 2595lg 1 + = 1127ln 1 + （2）
对每个频率滤波器的输出进行对数变换，得到符合人耳感知曲线的梅尔频谱图。
（3）运动学信号预处理：由于加速度传感器的测量值会同时受到动态加速度和静态加速度（即重
力）的影响，因此需要从信号中消除重力分量。采用低通滤波器分离出数据中的重力加速度分量。通
过式（2）一阶低通滤波计算重力加速度分量 g（初始值为 0）后，通过式（4）将 g 值从传感器原始数据中
减去［22］。
g( t) = (1 - α) × g( t - 1) + α × s(t) （3）
a( t) = s( t) - g (t) （4）
式中：g（t）为重力值；s（t）为采集的原始数据；a（t）为去除重力后的加速度；α 为滤波系数，用于控制
滤波器的截止点，α 的计算公式如下：
T s
α = （5）
1
T s +
2πf c
式中：T s 为原始数据的采样时间间隔；f c 为低通滤波截止频率，f c 一般在 0.1 ~ 0.5 Hz 之间取值［23-24］。由
于原始加速度采样频率为 100 Hz，因此 α 计算值为 0.03。

4 基于实时多模态数据的地下洞室施工机械活动识别深度学习模型

4.1 单模态特征提取（1）视觉数据特征提取：采用预训练的 S3D 模型［25］来获取视觉数据的特征向量，
其架构如图 2 所示，模型输入为经过归一化处理的视频帧。S3D 是一种处理视频和三维数据的深度学
习架构，其核心思想是将传统的 3D 卷积操作分解为 2D 空间卷积和 1D 时间卷积。这种方法能够在减少
模型的计算复杂度和参数量的同时，保持对视觉数据空间和时间维度上信息的捕获能力。
（2）声学数据特征提取：采用预训练的 VGGish 模型［26］来获取声学数据的单模态特征，VGGish 的架
构如图 3 所示。VGGish 是一个用于音频处理的深度学习模型，它将音频信号转换为一系列低维特征

图 2 S3D 模型架构

— 1146 —

37 38 39 40 41 42 43 44 45 46 47