Page 40 - 2025年第56卷第7期
P. 40

单向传播,仅依赖过去信息,可能造成信息丢失。BiGRU 引入了双向结构,如图 1(b)所示。其基本思
              想是:对于每个训练序列,分别在正向和反向构建 GRU 模型,将两个模型的隐藏层节点连接到同一输
              出层,同时考虑过去和未来的信息。在图 1(b)中,对每个 GRU 进行两个方向的处理:GRU 为正向
                                                                                                    1
              GRU,GRU 为反向 GRU。GRU 计算公式如下:
                                          1
                         2

















                                                    图 1 GRU 和 BiGRU 结构

                                                          
                                                                 
                                                   r  t = σ (W r x  t + U r h t - 1 )               (14)
                                                          
                                                                 
                                                   z  t = σ (W z x  t + U z h t - 1 )               (15)
                                                                      ͂                             (16)
                                                h t =  (1 - z  t ) ☉ h t - 1 + z  t  ☉ h t -
                                                ͂                   
                                               h t - = tanh(W ͂ x  t + r  t  ☉ U ͂ h t - 1 )        (17)
                                                          h          h
              式中:σ 为 Sigmoid 激活函数;☉ 为 Hadamard 积矩阵运算;tanh 为双曲正切激活函数;r  t 为 t 时刻的复
              位门状态,由输入渗流数据 x  t 和前一刻激活值 h t - 1 通过输入权矩阵 W r 和循环连接权矩阵U r 计算得到;
                                                          
                                                                             
                                                                                                
                                                                                                   ͂
                                                
                                                                 
                                                     
              z  t 为 t 时刻的更新门状态,由权矩阵 W z 和 U z 计算得到;h t 为 t 时刻的激活值,即模型输出;h t - 为 t 时
              刻的候选状态,表示模型在当前输入 x  t 和前一刻隐藏状态 h t - 1 基础上生成的新激活值;W ͂ 为 x  t 的权矩
                                                                                               
                                                                   
                                                                                                h
                   
              阵;U ͂ 为 h t - 1 的权矩阵。
                       
                    h
                  当 r  t 闭合时(值接近于 0),GRU 忽略前一时刻激活值 h t - 1 ,只受当前输入 x  t 的影响,使 h t 专注于有
                                                                                                  ͂
                                                                  
              效信息。GRU 与 GRU 计算相同,仅方向相反。对两个方向的结果进行平均,得到输出 h t :
                                  1
                           2
                                                           
                                                               
                                                      h t =  (h t + h t )/2                           (18)
              式中:h t 为 GRU 计算所得 t 时刻激活值;h t 为 t 时刻的最终输出,融合了来自正向和反向的时间信息。
                     
                             2
                  在混凝土坝渗流预测中,各影响因子的贡献程度不同。为增强模型对渗流预测关键影响因子的关
              注,提高预测准确性,引入 AM。AM 的核心思想是模拟人类大脑在关注事物时的注意力分配方式,迅
              速捕捉数据的重要特征,并通过概率分配权重突显关键信息。具体步骤如下:
                                                                                               n
                  (1)将库水位、温度、降雨和时效等时序数据作为输入特征序列  x t = ( x t ,x t ,⋯,x t ),通过激活
                                                                                       2
                                                                                    1
                                           k
              函数 tanh 捕捉数据的重要特征 u t ,其表达式为:
                                                     k
                                            u t = tanh( x t w a + b a ),  k = 1,2,⋯,n                 (19)
                                             k




              式中:w a 为当前时间的神经元输入权重系数;b a 为与当前时间相对应的偏差。
                         k
                                                                                    k
                                                 k
                             k
                  (2)令 e t = u t u,F = (e t ,e t ,⋯,e t ),则输入特征序列自动分配的权值 α t 为:
                                          2
                                      1
                                              k          k        k        k
                                            α t = softmax(u t ) = exp (u t )/∑exp (u t )              (20)
                                   k
              式中:softmax 函数对 u t 进行归一化,确保各特征序列在 t 时刻的注意力权重之和等于 1。
                                                               k
                  (3)将原始输入的特征序列与其对应时间的权值 α t 相乘,得到加权输入特征序列 S t 为:
                                                       1  1  2  2    n  n                             (21)



                                                 S t = (α t x t ,α t x t ,⋯,α t x t )
                  BiGRU 模型性能与泛化能力受隐藏单元数量、学习率和批尺寸等超参数影响,合理的参数设置有
              助于降低模型复杂性并提高部署效率。SSA 模拟了麻雀觅食行为,通过个体间的信息交流和合作来搜
                — 866   —
   35   36   37   38   39   40   41   42   43   44   45