Page 113 - 水利学报2021年第52卷第5期
P. 113
时间将数据样本划分为多个周期,一个周期即为一次开停机过程,并分别在发电工况和抽水工况下
建立预测模型。
2.3 最大信息系数分析 水电机组在运行过程中受多方面因素的影响,因此振动趋势预测需要考虑
其他变量的影响以更好拟合振动趋势,减小模型复杂度。本文主要考虑了在抽水和发电工况下影响
机组振动的内部和外部因素,利用 MIC 计算各变量与振动信号间的非线性关联性,最后选择关联性
较大的变量作为参考输入。相比于 Pearson、Spearman 等线性相关性分析方法,MIC 具有较好的普适
性和稳健性,能敏感挖掘两个变量间的深度关联性 [17-18] 。状态变量 x 与振动 y 之间 MIC 计算如下:
u
}
i
步 骤 1: 计 算 互 信 息(MI)。 设 特 征 集 中 任 意 特 征 x ={ x ,i = 1,2,…,t 、 振 动 Y = ( y ,i =
u u i
1,2,…,t ) 为数据集 D 中两个变量,则变量 x 与 Y 间的互信息可以表示为:
u
i
)
u
i
MI ( x ,Y ) = å å ( x ,y log p( x ,y i ) (4)
p
u
i
u
i
y
x
i
y ∈ Y x ∈ X p( ) p( )
i u u i
i
i
x
y
式中: p( x ,y j ) 为变量 x 和 Y 之间的联合概率密度函数; p( ) 和 p( ) 为 x 和 y 的边缘概率密度
u
u
u
u
i
函数。
步骤 2:将数据集 D 中变量 x 和 Y 划分到 r、s 两个格子中,并记为 G=(r,s),为获得使 MI 最大的
u
网格划分,使用归一化将 MI 数值归一化到(0,1)区间内进行比较,取不同方式中最大的 MI 值为划分
G 下的 MI 值,则归一化后最大互信息可表示如下:
MI ( x ,Y )
∗
M ( x ,Y ) = D |G u (5)
D |G u log (min{r,s ) }
2
式中 M ∗ ( x ,Y ) 为数据集 D 在划分 G 下的最大 MI 值。
( D |G ) u
步骤 3:选择 D 中最大的 MI 值作为 MIC 值。较高的 MIC 值表明变量 x 和 Y 之间有很强的相关
u
性,较低的 MIC 值则表明较低的相关性,MIC 的计算公式如下:
ì D { MI
ï MIC ( ) = max D |G (x ,Y } )
u
í r*s < B ( ) n (6)
ï B ( ) n = n 0.6
î
式中:MIC(D)为变量 x 和 Y 之间的 MIC 值;B(n)为样本大小 n 的函数。
u
通过计算每个特征和状态变量之间的 MIC值来获得最优特征集。如果不满足公式(7)的特征将被删除。
)
MIC (x ,Y ≥ σ (7)
i
u
式中: x 为第 u 个特征;Y 为振动信号;MIC 为第 u 个特征和振动信号 Y 之间的 MIC 值; σ 为特征选
i
u
择阈值。
为挑选出在传感器噪声影响下,最能代表水电机组运行状态的特征,水电机组振动信号与各状
态变量之间的 MIC 值被计算,通过计算其平均值,可以反映出振动信号与各状态变量间敏感性相关
性的平均水平,与振动信号间 MIC 值大于阈值的则被认为是有效特征 [19] ,其计算公式为:
N
σ = 1 å MIC (x ,Y ) i = 1,2,⋯,N (8)
N i i
i = 1
式中 N 为状态变量个数。
2.4 双边门控循环神经网络 BiGRU 模型 [20] 包括输入层、前向传播层、后向传播层和输出层 4 个部
分,分为前向传播和后向传播两个过程。它通过向前和向后两个 GRU 对每一个时间序列进行训练。
BiGRU 网络结构如图 2 所示,输入层对应于输入时间序列的节点;前向传播层为从左向右传递的
)
GRU 网络,其隐藏状态为 ( h 1 , h 2 ,⋯, h t ,后向传播层为从右向左传递的 GRU 网络,其隐藏状态
为 ( h , h ,⋯, h ) ,前向和后向传播层的节点连接输入层以及上一个输入节点的输出;输出层则为
1 2 t
前向和后向传播层的隐藏状态之和。t时刻隐藏状态计算如下:
— 615 —