Page 126 - 2024年第55卷第8期

P. 126

式中：ｔ和ｔ－１分别为当前时刻和前一时刻；ｈ和ｈ分别为当前时刻和前一时刻的隐藏层状态；Ｃ和
ｔｔ－１ｔ
Ｃ代表当前时刻和前一时刻的记忆状态单元；Ｗ、Ｗ、Ｗ和Ｗ分别为遗忘门、输入门、记忆状态
ｔ－１ｆｉｃｏ
单元和输出门的权值；ｂ、ｂ、ｂ和ｂ分别为遗忘门、输入门、记忆状态单元和输出门的偏置；ｘ为当
ｉ
ｆ
ｃ
ｔ
ｆ
Ｃ
前时刻的输入值；珟为候选状态单元；σ （ｘ）为Ｓｉｇｍｏｉｄ激活函数。
ｔ

图６典型ＬＳＴＭ结构示意图

虽然ＬＳＴＭ模型适用于处理时序数据并已在各个领域得到了广泛的应用，但ＬＳＴＭ仍存在计算速
度慢、难以处理大量数据等问题。因此，针对ＬＳＴＭ存在的不足之处，本文进一步选用了双向长短期
记忆网络（ＢｉＬＳＴＭ）和门控循环单元（ＧＲＵ）对实验数据进行预测研究。
ＢｉＬＳＴＭ［２４］是由前向ＬＳＴＭ和后向ＬＳＴＭ组成的双向ＬＳＴＭ模型。传统的ＬＳＴＭ模型无法编码从后
往前的数据，即只能利用序列靠前的数据预测数据靠后的数据，难以获得时序数据的全局特征，
ＢｉＬＳＴＭ则能够充分比较前序数据和后序数据的关联性，并基于此对时序数据进行分类预测，具有良
好的精度和泛化性。
ＧＲＵ［２５］与ＬＳＴＭ相类似，同样是为了解决ＲＮＮ存在的长期记忆问题、梯度消失和梯度爆炸问题
而提出的深度学习模型。ＧＲＵ相较于ＬＳＴＭ，ＧＲＵ参数需求更少、训练效率更高，能够在保证预测精
度的前提下，大幅加快训练速度。ＧＲＵ的结构如图７所示，包含更新门（ｚ）和重置门（ｒ）两个门控结
ｔ
ｔ
构，其中，表示单位矩阵减去输入的数据矩阵。具体运算如下所示：
ｚ＝ σ （Ｗ ·［ｈ，ｘ］＋ｂ）（１１）
ｔ－１
ｚ
ｔ
ｚ
ｔ
ｒ＝ σ （Ｗ ·［ｈ，ｘ］＋ｂ）（１２）
ｔｒｔ－１ｔｒ
槇（１３）
ｈ＝ｔａｎｈ（Ｗ ·［ｒ ⊙ｈ，ｘ］＋ｂ）
ｔｈｔｔ－１ｔｈ
珘
ｈ＝（１－ｚ） ⊙ｈ＋ｚ ⊙ｈｔ（１４）
ｔ
ｔ
ｔ
ｔ－１
１
σ （ｘ）＝Ｓｉｇｍｏｉｄ（ｘ）＝（１５）
－ｘ
１＋ｅ
ｈ
式中：珘为候选隐藏状态；Ｗ、Ｗ和Ｗ分别为更新门、重置门和候选隐藏状态的权值；ｂ、ｂ和ｂ
ｔｚｒｈｚｒｈ
分别为更新门、重置门和候选隐藏状态的权值；σ （ｘ）为Ｓｉｇｍｏｉｄ激活函数。
虽然ＬＳＴＭ，ＢｉＬＳＴＭ及ＧＲＵ等ＲＮＮ模型适合处理时序数据。然而，即便是ＧＲＵ模型，在面对维
度多、数据量大的长序列数据时，也无法有效精确地快速提取数据的特征，从而降低了训练速度并难
以训练得到高效准确的预测模型。常压、小尺度条件下的泄漏特征远不如高压、常规尺度或大尺度下
的泄漏特征明显，在常压、小尺度条件下进行特征提取的难度更大，导致构建泄漏检测模型的难度进
一步增大。
针对上述问题，本文利用卷积神经网络（ＣＮＮ）进行优化，ＣＮＮ［２６－２７］是一种深层前馈型神经网络，
也是最为典型的深度学习模型，一般由输入层、卷积层、池化层、展平层、全连接层组成，典型结构
— １０４ —
０

121 122 123 124 125 126 127 128 129 130 131