Page 113 - 水利学报2021年第52卷第5期
P. 113

时间将数据样本划分为多个周期,一个周期即为一次开停机过程,并分别在发电工况和抽水工况下
               建立预测模型。
               2.3  最大信息系数分析           水电机组在运行过程中受多方面因素的影响,因此振动趋势预测需要考虑

               其他变量的影响以更好拟合振动趋势,减小模型复杂度。本文主要考虑了在抽水和发电工况下影响
               机组振动的内部和外部因素,利用 MIC 计算各变量与振动信号间的非线性关联性,最后选择关联性
               较大的变量作为参考输入。相比于 Pearson、Spearman 等线性相关性分析方法,MIC 具有较好的普适
               性和稳健性,能敏感挖掘两个变量间的深度关联性                       [17-18] 。状态变量 x 与振动 y 之间 MIC 计算如下:
                                                                            u
                                                                                        }
                                                                       i
                   步 骤 1: 计 算 互 信 息(MI)。 设 特 征 集 中 任 意 特 征 x ={ x ,i = 1,2,…,t 、 振 动 Y = ( y ,i =
                                                                   u   u                             i
              1,2,…,t     ) 为数据集 D 中两个变量,则变量 x 与 Y 间的互信息可以表示为:
                                                          u
                                                                            i
                                                                    )
                                                                            u
                                                               i
                                       MI ( x ,Y  ) =  å å ( x ,y log    p( x ,y i )                   (4)
                                                            p
                                            u
                                                                   i
                                                               u
                                                                           i
                                                                                y
                                                                          x
                                                        i
                                                    y ∈ Y x ∈ X         p( ) p( )
                                                    i   u                  u    i
                                                                         i
                         i
                                                                        x
                                                                                y
               式中: p( x ,y   j ) 为变量 x 和 Y 之间的联合概率密度函数; p( ) 和 p( ) 为 x 和 y 的边缘概率密度
                                       u
                                                                         u
                                                                                       u
                         u
                                                                                 i
               函数。
                   步骤 2:将数据集 D 中变量 x 和 Y 划分到 r、s 两个格子中,并记为 G=(r,s),为获得使 MI 最大的
                                            u
               网格划分,使用归一化将 MI 数值归一化到(0,1)区间内进行比较,取不同方式中最大的 MI 值为划分
               G 下的 MI 值,则归一化后最大互信息可表示如下:
                                                             MI ( x ,Y   )
                                                                ∗
                                               M ( x ,Y   ) =   D |G  u                                (5)
                                                 D |G  u     log (min{r,s  ) }
                                                               2
               式中 M  ∗   ( x ,Y  ) 为数据集 D 在划分 G 下的最大 MI 值。
                     ( D |G  )  u
                   步骤 3:选择 D 中最大的 MI 值作为 MIC 值。较高的 MIC 值表明变量 x 和 Y 之间有很强的相关
                                                                                    u
               性,较低的 MIC 值则表明较低的相关性,MIC 的计算公式如下:
                                              ì     D         { MI
                                              ï MIC ( ) = max    D |G (x ,Y  } )
                                                                     u
                                              í         r*s < B ( ) n                                  (6)
                                              ï B ( ) n = n  0.6
                                              î
               式中:MIC(D)为变量 x 和 Y 之间的 MIC 值;B(n)为样本大小 n 的函数。
                                    u
                   通过计算每个特征和状态变量之间的 MIC值来获得最优特征集。如果不满足公式(7)的特征将被删除。
                                                                )
                                                     MIC (x ,Y ≥ σ                                     (7)
                                                        i
                                                           u
               式中: x 为第 u 个特征;Y 为振动信号;MIC 为第 u 个特征和振动信号 Y 之间的 MIC 值; σ 为特征选
                                                        i
                       u
               择阈值。
                   为挑选出在传感器噪声影响下,最能代表水电机组运行状态的特征,水电机组振动信号与各状
               态变量之间的 MIC 值被计算,通过计算其平均值,可以反映出振动信号与各状态变量间敏感性相关
               性的平均水平,与振动信号间 MIC 值大于阈值的则被认为是有效特征                            [19] ,其计算公式为:
                                             N
                                      σ =  1  å  MIC (x ,Y  )       i = 1,2,⋯,N                        (8)
                                          N       i  i
                                            i = 1
               式中 N 为状态变量个数。
               2.4  双边门控循环神经网络             BiGRU 模型  [20] 包括输入层、前向传播层、后向传播层和输出层 4 个部
               分,分为前向传播和后向传播两个过程。它通过向前和向后两个 GRU 对每一个时间序列进行训练。
               BiGRU 网络结构如图 2 所示,输入层对应于输入时间序列的节点;前向传播层为从左向右传递的
                                                
                                                      )
               GRU 网络,其隐藏状态为 ( h 1 , h 2 ,⋯, h t ,后向传播层为从右向左传递的 GRU 网络,其隐藏状态
                             
               为 ( h , h ,⋯, h  ) ,前向和后向传播层的节点连接输入层以及上一个输入节点的输出;输出层则为
                   1   2        t
               前向和后向传播层的隐藏状态之和。t时刻隐藏状态计算如下:
                                                                                               — 615  —
   108   109   110   111   112   113   114   115   116   117   118