Page 66 - 水利学报2021年第52卷第5期
P. 66

隙数据多峰分布的拟合精度。
                                                                [14-15]
                   自回归流模型属于一种标准化流(Normalizing Flow)                 ,如图 2 所示,其核心思想是将一系列简单
               的可逆变换函数作为组件以“流”的形式依次嵌套为一个可逆的复合函数,构造出一个具有更强拟合能
               力的非线性双射,通过在实际数据的目标分布与已知的基础分布之间互相转换实现多维联合分布的估
               计。
                   令随机变量 Z ∈ R      D  服从已知的基础分布 p ( ) z ,随机变量 Y ∈ R           D  服从目标分布 p ( ) 。利用
                                                                                                  y
                                                                                               Y
                                                          Z
               N 个双射函数 f ,f ,,f         的复合函数 f 构建可逆变换,将基础分布变换为一个未知的目标分布,
                             1  2       N
                                                                                               Y
               即 Y = f ( ) , 其 逆 变 换 为 双 射 函 数 g ,g ,,g             的 复 合 函 数 g, 即 Z = g ( ) 。 根 据
                       Z
                                                       1   2       N
               Change-of-Variables 公式 [14] ,令 J 为雅克比行列式算子,则目标分布的概率密度函数如下:
                                                                         )|
                                                               |
                                                     )|
                                      p ( ) = p ( g ( ) det Jg ( ) = p ( g ( ) det Jf ( g ( )  | )  -1  (1)
                                                             y
                                                   y
                                         y
                                                                       y
                                                                                   y
                                       Y
                                              Z
                                                                  Z
                   变换 f 的方向称作生成方向(Generative Direction),是进行采样时的数据流向,逆变换 g 的方向称
               作标准化方向(Normalizing Direction),通常将复杂不规则的目标分布变换为多元标准高斯分布                                [19-20] ,
               是评估模型概率密度值的数据流向,如图 2 所示。为了保证模型训练和预测的计算效率,要求可逆变
               换 f 具有易解的雅克比行列式(Tractable Jacobian Determinant)。因此,引入另一种深度生成模型——
                                                    [29]
               自回归模型(Auto-Regressive Model,AR) ,该模型基于概率链式法则将联合概率密度分解为每一个
               维数上的条件概率的乘积            [29] ,并逐个对每一维数据的条件概率分布进行“自回归”计算。以自回归模
                                                                                   [19-20]
               型作为双射函数 f 的标准化流模型称作自回归流模型(Autoregressive Flow)                          ,其中双射函数 f 具
                               i
                                                                                                       i
               有如下的自回归形式:
                                                         z ′ = τ( z ;h i )                             (2)
                                                                i
                                                          i
                                                [14]
               式 中 : τ 称 作 变 换 函 数(transformer) ; c 称 作 第 i 个 调 节 函 数(conditioner);h = c ( z   1:i - 1 ),z 1:i - 1  =
                                                                                         i
                                                      i
                                                                                             i
               ( z ,z ,,z   ) [14] 。
                1  2       i - 1
                   该公式的自回归特性体现在:第 i 个调节函数 c 只能以第 1 个至第 i-1 个维度的变量 z                                1:i - 1  为输
                                                               i
               入,其雅克比矩阵为下三角阵。将公式(2)作为 Normalizing 方向的逆变换 g                         [19] ,并选择仿射变换形式
               的变换函数 τ     [14] ,如下:
                                                  z ′ = τ( z ;h i ) = z exp( ) + β i                   (3)
                                                                     α
                                                                      i
                                                                i
                                                         i
                                                   i
               式中 h ={α ,β   i } = c ( z 1:i - 1 )。
                                 i
                         i
                    i
                   式(3)中的变换函数 τ 是可逆的,且形式简洁且引入的参数量较少,在实测裂隙数据的小样本数
               据集上不易过拟合        [19-20] ,同时对于裂隙数据具备足够的拟合能力。此时雅克比行列式的绝对值为:
                                                            d              d
                                                                        | å
                                                                     α
                                               log | detJ ( ) z  | =  å | exp( ) =  α i                (4)
                                                              log
                                                      f
                                                                       i
                                                            i = 1          i = 1
                                                 d
                   计算该行列式的时间复杂度为 Ο( ) ,从而保证了雅克比行列式的易解性(Tractable)。进一步采
                                                                            [29]
               用掩模自编码器(Masked AutoEncoder for Density Estimation,MADE) 构建调节函数 c ,对多参数之
                                                                                             i
               间的相关性进行建模,逐个计算每个参数的条件概率并依据链式法则求得联合概率密度。在训练自
               回归流模型的过程中,直接将负对数似然函数作为损失函数,通过梯度下降对每一个双射函数 f 内
                                                                                                       i
               部的仿射变换参数与掩模自编码器参数进行优化。
                   本文提出的 DPCAF 模型中,基于高斯混合分布与密度峰值聚类改进自回归流模型的方法如下:
                   首先,建立混合高斯分布作为 DPCAF 模型的基础分布。高斯混合分布是一种混合分布,记作:
                                                            k
                                                                      G
                                                     p ( ) x =  å (x|G i ) p( )                        (5)
                                                              p
                                                                       i
                                                           i = 1
               式中: G 为混合分支,服从高斯分布; p(x|G                 i ) 为支密度; p( ) 为混合比例。
                                                                        G
                       i
                                                                         i
                   利用 DensityPeak 算法搜索密度峰值点作为聚类中心,将簇的数量作为高斯混合分布中分量的
                 — 568  —
   61   62   63   64   65   66   67   68   69   70   71