Page 113 - 2022年第53卷第3期
P. 113
的多分类器,并且其输出的类别是由决策树输出的类别的众数而定。
Bootstrap 取样方法是一种有放回的抽样方法,故可以得到容量与被抽样样本相同的样本。假设
样本容量为无穷大时,约有 36.8%的袋外样本不可以被抽中,这部分数据通常用来检测模型的泛化能
力。Bagging 算法是一种集成学习算法,它通过 Bootstrap 取样方法进行多次取样,形成多个样本采样
集,每一个采样集都可训练成一个弱学习器,各个弱学习器相互独立,分别对数据进行处理并投
票,票数最多的便是算法的结果。RF 是一种改进的 Bagging 算法,它采用 CART 决策树作为弱学习
器,故各个决策树相互独立,只能保留原始样本的部分数据特征。
RF 的构建由以下三个部分组成:
(1)RF 每一轮训练样本数据时,采用有放回的抽样方法从样本数据中抽取 P 个样本,并据此构建
P 个决策树。
(2)随机选择决策树的训练数据,假设样本有 M 个特征属性,从 M 个特征属性中随机选择 l 个特
征属性,作为决策树的训练属性。
(3)生成的 P 个决策树组成一个 RF,由每个决策树共同决定分类结果。
水电机组故障诊断总体流程如图 2 所示,将振动信号的 TSMATE 作为特征向量。针对特征冗杂问
题,本文利用 PCA对特征向量进行降维处理。最终将降维数据输入到 RF模型中,利用 RF进行故障识别。
机组振动信号
特
征 计算信号的 TSMATE
提
取
TSMATE(1) TSMATE(2) TSMATE(3) TSMATE(18) TSMATE(19) TSMATE(20)
降
维
处 PCA 降维处理,输出降维数据
理
随
机
森 决策树 1 决策树 n 决策树 p
林
诊
断 确定故障类别
图 2 水电机组故障诊断流程图
3 仿真实验
3.1 TSMATE 稳定性分析 为验证 TSMATE 的合理性,本文分析了 Blue noise、Violet noise、Pink
noise 以及 Red noise4 种不同的 1/f 噪声(见图 3)下 TSMATE 随信号长度变化情况。
如图 4 所示,对比 TSMATE 和 MATE 在 4 种不同噪声上的分布情况,发现随着时序信号长度的减
小,MATE 波动逐渐增大,尤其在一些尺度上 MATE 值发生了突变。以时序长度 N=1000 的噪声信号
为例,不同噪声的 MATE 分布在尺度因子大于 16 时,MATE 值变化剧烈。同时,不同长度噪声信号
MATE 的分布差异过大,4 种噪声的 MATE 波动最大幅值分别达到了 0.485、0.443、0.491 以及 0.604,
说明传统的粗粒化方法不能有效分割短序列信号。
对比 MATE,论文所提的 TSMATE 在 4 种噪声的波动最大幅值为 0.137、0.158、0.187 以及 0.386,
说明 TSMATE 在不同的时序长度上分布基本一致。并且,随着尺度因子的增大,TSMATE 值逐渐趋于
平稳,表明 TSMATE 对时间长度具有良好的鲁棒性。
— 361 —