Page 40 - 2025年第56卷第7期
P. 40
单向传播,仅依赖过去信息,可能造成信息丢失。BiGRU 引入了双向结构,如图 1(b)所示。其基本思
想是:对于每个训练序列,分别在正向和反向构建 GRU 模型,将两个模型的隐藏层节点连接到同一输
出层,同时考虑过去和未来的信息。在图 1(b)中,对每个 GRU 进行两个方向的处理:GRU 为正向
1
GRU,GRU 为反向 GRU。GRU 计算公式如下:
1
2
图 1 GRU 和 BiGRU 结构
r t = σ (W r x t + U r h t - 1 ) (14)
z t = σ (W z x t + U z h t - 1 ) (15)
͂ (16)
h t = (1 - z t ) ☉ h t - 1 + z t ☉ h t -
͂
h t - = tanh(W ͂ x t + r t ☉ U ͂ h t - 1 ) (17)
h h
式中:σ 为 Sigmoid 激活函数;☉ 为 Hadamard 积矩阵运算;tanh 为双曲正切激活函数;r t 为 t 时刻的复
位门状态,由输入渗流数据 x t 和前一刻激活值 h t - 1 通过输入权矩阵 W r 和循环连接权矩阵U r 计算得到;
͂
z t 为 t 时刻的更新门状态,由权矩阵 W z 和 U z 计算得到;h t 为 t 时刻的激活值,即模型输出;h t - 为 t 时
刻的候选状态,表示模型在当前输入 x t 和前一刻隐藏状态 h t - 1 基础上生成的新激活值;W ͂ 为 x t 的权矩
h
阵;U ͂ 为 h t - 1 的权矩阵。
h
当 r t 闭合时(值接近于 0),GRU 忽略前一时刻激活值 h t - 1 ,只受当前输入 x t 的影响,使 h t 专注于有
͂
效信息。GRU 与 GRU 计算相同,仅方向相反。对两个方向的结果进行平均,得到输出 h t :
1
2
h t = (h t + h t )/2 (18)
式中:h t 为 GRU 计算所得 t 时刻激活值;h t 为 t 时刻的最终输出,融合了来自正向和反向的时间信息。
2
在混凝土坝渗流预测中,各影响因子的贡献程度不同。为增强模型对渗流预测关键影响因子的关
注,提高预测准确性,引入 AM。AM 的核心思想是模拟人类大脑在关注事物时的注意力分配方式,迅
速捕捉数据的重要特征,并通过概率分配权重突显关键信息。具体步骤如下:
n
(1)将库水位、温度、降雨和时效等时序数据作为输入特征序列 x t = ( x t ,x t ,⋯,x t ),通过激活
2
1
k
函数 tanh 捕捉数据的重要特征 u t ,其表达式为:
k
u t = tanh( x t w a + b a ), k = 1,2,⋯,n (19)
k
式中:w a 为当前时间的神经元输入权重系数;b a 为与当前时间相对应的偏差。
k
k
k
k
(2)令 e t = u t u,F = (e t ,e t ,⋯,e t ),则输入特征序列自动分配的权值 α t 为:
2
1
k k k k
α t = softmax(u t ) = exp (u t )/∑exp (u t ) (20)
k
式中:softmax 函数对 u t 进行归一化,确保各特征序列在 t 时刻的注意力权重之和等于 1。
k
(3)将原始输入的特征序列与其对应时间的权值 α t 相乘,得到加权输入特征序列 S t 为:
1 1 2 2 n n (21)
S t = (α t x t ,α t x t ,⋯,α t x t )
BiGRU 模型性能与泛化能力受隐藏单元数量、学习率和批尺寸等超参数影响,合理的参数设置有
助于降低模型复杂性并提高部署效率。SSA 模拟了麻雀觅食行为,通过个体间的信息交流和合作来搜
— 866 —

