Page 113 - 2022年第53卷第3期
P. 113

的多分类器,并且其输出的类别是由决策树输出的类别的众数而定。
                   Bootstrap 取样方法是一种有放回的抽样方法,故可以得到容量与被抽样样本相同的样本。假设
               样本容量为无穷大时,约有 36.8%的袋外样本不可以被抽中,这部分数据通常用来检测模型的泛化能
               力。Bagging 算法是一种集成学习算法,它通过 Bootstrap 取样方法进行多次取样,形成多个样本采样
               集,每一个采样集都可训练成一个弱学习器,各个弱学习器相互独立,分别对数据进行处理并投
               票,票数最多的便是算法的结果。RF 是一种改进的 Bagging 算法,它采用 CART 决策树作为弱学习
               器,故各个决策树相互独立,只能保留原始样本的部分数据特征。
                   RF 的构建由以下三个部分组成:
                  (1)RF 每一轮训练样本数据时,采用有放回的抽样方法从样本数据中抽取 P 个样本,并据此构建
               P 个决策树。
                  (2)随机选择决策树的训练数据,假设样本有 M 个特征属性,从 M 个特征属性中随机选择 l 个特
               征属性,作为决策树的训练属性。
                  (3)生成的 P 个决策树组成一个 RF,由每个决策树共同决定分类结果。
                   水电机组故障诊断总体流程如图 2 所示,将振动信号的 TSMATE 作为特征向量。针对特征冗杂问
               题,本文利用 PCA对特征向量进行降维处理。最终将降维数据输入到 RF模型中,利用 RF进行故障识别。

                                                        机组振动信号
                     特
                     征                               计算信号的 TSMATE
                     提
                     取
                            TSMATE(1)  TSMATE(2)  TSMATE(3)      TSMATE(18)  TSMATE(19)  TSMATE(20)
                     降
                     维
                     处                            PCA 降维处理,输出降维数据
                     理


                     随
                     机
                     森            决策树 1                   决策树 n                   决策树 p
                     林
                     诊
                     断                                 确定故障类别

                                                  图 2  水电机组故障诊断流程图

               3  仿真实验

               3.1  TSMATE 稳定性分析          为验证 TSMATE 的合理性,本文分析了 Blue noise、Violet noise、Pink

               noise 以及 Red noise4 种不同的 1/f 噪声(见图 3)下 TSMATE 随信号长度变化情况。
                   如图 4 所示,对比 TSMATE 和 MATE 在 4 种不同噪声上的分布情况,发现随着时序信号长度的减
               小,MATE 波动逐渐增大,尤其在一些尺度上 MATE 值发生了突变。以时序长度 N=1000 的噪声信号
               为例,不同噪声的 MATE 分布在尺度因子大于 16 时,MATE 值变化剧烈。同时,不同长度噪声信号
               MATE 的分布差异过大,4 种噪声的 MATE 波动最大幅值分别达到了 0.485、0.443、0.491 以及 0.604,
               说明传统的粗粒化方法不能有效分割短序列信号。
                   对比 MATE,论文所提的 TSMATE 在 4 种噪声的波动最大幅值为 0.137、0.158、0.187 以及 0.386,
               说明 TSMATE 在不同的时序长度上分布基本一致。并且,随着尺度因子的增大,TSMATE 值逐渐趋于
               平稳,表明 TSMATE 对时间长度具有良好的鲁棒性。

                                                                                               — 361  —
   108   109   110   111   112   113   114   115   116   117   118