Page 41 - 2024年第55卷第9期
P. 41

特征,合理选择特征集合对于保留有效信息、提高预测性能十分关键。基于特征提取的降维方法已广泛应
              用,吴敏妍等      [6] 应用主成分分析法精简影响因子集,有效减小过拟合,提高模型精度;徐先锋等                                  [7] 基于最
              大信息系数对海量数据进行聚类与特征重构,显著提升了预测性能。但特征提取法会改变原始特征从而无
              法解释物理意义,而基于特征选择的降维方法在剔除大部分不相关或冗余特征的同时又能不改变原始特征、
              有效保留原始信息、寻找最优特征集合。刘代超等                       [8] 利用递归特征选择法(RecursiveFeatureElimination,
              RFE)对数据集进行降维并提高了对林地与非林地的识别能力;项颂阳等                             [9] 利用 RFE筛选出具有较好识别能
              力的特征子集且可保证分类精度。RFE已应用在林地识别、图像分类等领域并取得较好成果,但单一元学
              习器的应用限制了计算结果的稳定性。目前在大坝变形预测方面,对于冗余特征的辨识研究较少,且多关
              注于特征提取法,在解释不同时空区域大坝变形物理意义方面存在困难,模型可解释性不强。
                  大坝变形数据序列与因子集之间具有复杂的非线性关系,依据构建方法的不同,监控模型大致分
              为统计模型、确定性模型和混合模型                  [10] 。逐步回归、多元线性回归等统计模型结构形式简单、计算高
              效,结合数学理论挖掘大坝变形与影响因子之间的函数关系,已广泛应用于大坝变形预测。但常规统
              计模型难以提取因子集与效应量之间的多重共线性特征,对异常值敏感,无法确保所建模型的稳健性。
              而随着机器学习与深度学习的长足发展,越来越多的理论模型被引入数据预测领域,Yao等                                         [11] 基于多输
              出支持向量机构建了可综合考虑大坝多点变形的预测模型;任秋兵等                               [12] 基于门控循环单元提出了具备时
              空信息的大坝变形动态监控模型;王瑞婕等                    [13] 结合 Stacking集成学习思想,构建大坝变形多因子多算法
              组合预测模型,泛化能力、预测精度和鲁棒性得到了显著提升。现有模型虽极大地提升了变形预测精度,
              但面对具有高维非线性特征的大坝变形数据序列,浅层机器学习模型往往难以有效挖掘数据特征,泛化
              能力较弱;因为往往仅单向考虑历史信息,现有深度学习模型难以兼顾历史与未来双向信息的关联性。
                  综上所述,现有研究常将降噪方法、数据分解方法、优化算法等单独与回归方法相结合,同时对
              影响因子的判识研究以及组合模型研究较少,因此针对前述模型的不足,为提高模型精度及稳定性,
              本文构建了泛化能力强、鲁棒性高的大坝变形预测模型。基于灰狼算法( GreyWolfOptimizer,GWO)
              优化的 CEEMDAN阈值降噪法对数据序列进行降噪处理,提升针对数据噪音的响应能力;利用以特征
              选择理论为出发点的交叉验证递归特征选择法( RecursiveFeatureEliminationCrossValidation,RFECV)
              对模型因子集进行筛选,确定最优特征集合作为模型输入变量;利用双向长短期记忆神经网络(Bidi
              rectionalLongShortTerm Memory,BiLSTM)对长时间序列的双向非线性信息特征提取能力,考虑信息
              的前后关联性,对大规模数据集进行特征挖掘构建大坝变形预测模型。


              2 方法原理及模型构建


              2.1 GWO优化的 CEEMDAN阈值降噪 以 EEMD、CEEMD为代表的数据分解法基于信号的极值特
              征尺度可将时序数据分解为从高频至低频的若干分量,一定程度上克服了模态混叠问题,但由于参数
              众多并不能有效保证分解效果。若直接将包含大量噪声的高频本征模态分量(IntrinsicModeFunctions,
              IMF)完全过滤,在降噪的同时可能损失有效信息。因此为有效识别大坝变形时序数据的真实信息特
              征,需建立滤波降噪模型以期减小数据误差、提高模型精度。
              2.1.1 自适应噪声完备经验模态分解 对于非平稳时变信号,虽然可以利用在待分解信号中加入高斯
              白噪声而改进的 EEMD与 CEEMD算法来解决 EMD分解中的模态混叠问题,但这两种算法均未对残留
              噪声进行隔离,由此分解得到的分量中总会残留对后续信号分析处理产生影响的白噪声。
                  基于传统 EMD算法改进后的 CEEMDAN从两个方面解决了上述问题:(1)分解过程中将高斯白噪
              声与经 EMD分解后含辅助噪声的 IMF分量同时加入原始信号,相较仅加入白噪声可提高对非线性信
              号的分解能力;( 2)EEMD和 CEEMD均是针对 EMD分解所得分量总体进行平均,CEEMDAN则是对
              第一次分解所得若干 IMF分量直接平均计算得到 IMF与残差,针对残差重复如上操作直至完成分解,
                                                              1
              可有效抑制噪声信号从高频转移至低频,减少重构误差,提升对非平稳信号中存在的不同频率信息的
              分辨能力     [14] 。CEEMDAN的实现步骤如下         [15 - 16] :

                     4
                —  1 0 6 —
   36   37   38   39   40   41   42   43   44   45   46