Page 102 - 水利学报2021年第52卷第4期

P. 102

程度［16-17］。根据中心极限定理，对于包含 K 个样本时域差异特征的集合 Td = [tdf ，tdf ，tdf ] ，如果
1 2 K
K 足够大的话，那么时域差异特征取值的置信区间可以根据下式计算获得［18］：
-
-
- - - -
-
-
[tdf - S × σ， tdf + S × σ ] （8）
- -
-
-
式中： tdf 为 Td 中数据的平均值；S 表示 Td 中数据的标准差。当置信度等于 φ% 时，表明某个样本
的时域差异特征落在式（8）区间内的概率为 φ% ，在实际应用中，比较常用的置信度为 95%和 99%，
对应的系数 σ 取 1.960 和 2.576。
以典型工况（P ，H ）为例，根据式（8）计算得到正常时域差异特征置信区间上限为 tdf ，假设该
m
m
θ
工况待测样本时域差异特征值为 tdf ，若样本为正常数据，那么 tdf 应小于 tdf ，故将 tdf 作为时
m
θ
θ
m
域差异特征正常阈值。定义时域劣化指标 TI ，计算公式如下式所示：
tdf
TI = m （9）
tdf θ
在离线阶段，利用水电机组状态监测系统中累积的海量正常数据计算各典型工况下时域差异特
征正常阈值，在线阶段，根据式（9）计算时域劣化指标，即可实时评价机组健康状态。
3.2 频域劣化指标为了显示出某些时域上难以观察到的信号特征，可对信号进行 FFT 得到其频
谱，然后利用自编码器的无监督特征学习能力提取信号频谱中的有效信息。
B
3.2.1 基本原理假设有一组 B 维样本 y ( ) n ∈ Â ， 1 ≤ n ≤ N ，N 为样本总数，自编码器将这组数
W
据映射到特征空间，得到每个样本的编码 z ( ) n ∈ Â ， 1 ≤ n ≤ N ，并且希望这组编码可以重构出原
来的样本［19］。自编码器的结构可分为两部分：
（1）编码器：
B
f: Â ® Â W （10）
（2）解码器：
W
g:Â ® Â B （11）
自编码器的学习目标是最小化重构误差：
N  ( ) n æ ( ) n  2
ℓ = å  y - g ç f æ y ö ö ÷   （12）

n = 1 è è  ø ø
如果特征空间维度 W 小于原始空间维度 B，自编码器相当于是一种降维或特征抽取方法。最简单
的自编码器是如图 2 所示的两层神经网络，输入层到隐藏层用来编码，隐藏层到输出层用来解码，层
与层之间互相全连接。
3.2.2 频域差异特征以典型工况（P ， H ）为
m
m
例，记该工况标准数据子库为 S ，正常数据子库
m
为 N ，频域差异特征的计算步骤为：
m
（1）对 S 中的样本进行中心化处理。中心化公
m
式如式（7）所示。
（2）对 S 中经过中心化处理后的各样本进行
m
FFT，得到对应的频谱。
（3）将步骤（2）得到的所有频谱划分为训练集
和验证集输入自编码器进行训练，得到验证集损
失函数收敛的自编码器。
（4）对于 N 中的样本，根据步骤（1）、（2）得到
m
对应频谱，然后输入步骤（3）训练好的自编码器，
按照式（13）计算重构误差 re，并将 re 作为各样本频
域差异特征。
图 2 两层网络结构的自编码器

— 478 —

97 98 99 100 101 102 103 104 105 106 107