Page 7 - 2024年第55卷第9期

P. 7

①在高维空间中，通过欧式距离量度，找到距离样本ｘ最近的Ｋ个样本。
ｉ
②对每个样本ｘ，求在它邻域里的Ｋ个近邻的线性关系，得到线性关系权重系数Ｗ＝（ｗ，ｗ，…，
ｉ
ｉ
ｉ１
ｉ２
Ｔ
ｗ）（ｉ＝１，２，…，Ｎ）
ｉｋ
③假定在高维空间和低维空间中，Ｋ邻域内，线性关系权重系数Ｗ保持不变，利用Ｗ在低维里重
ｉ
ｉ
Ｄ
Ｄ
ｄ
构样本数据，实现ｘ ∈Ｒ →ｙ ∈Ｒ，ｄ Ｄ。（Ｒ为Ｄ维度的高维空间，ｄ为低维空间维度）
ｉ
ｉ
Ｄ
首先对高维空间中的Ｎ个数据点｛ｘ，ｘ，…，ｘ｝ ∈Ｒ，计算每个样本点ｘ与其它所有样本的
１
ｉ
２
Ｎ
欧式距离，选择距离最小的Ｋ个样本｛ｘ，ｘ，…，ｘ｝，每个ｘ都可以用距离最近的Ｋ个样本｛ｘ，
ｉ１ｉ２ｉｋｉｉ１
ｘ，…，ｘ｝线性表达，如式（５）所示。
ｉ２
ｉｋ
ｋ
ｉ ∑
ｘ≈ 珋＝ｗｘ（５）
ｘ
ｉ
ｉｊｊ
ｊ＝１
同时满足条件
ｋ
∑ ｗ＝１（６）
ｉｊ
ｊ＝１
以其均方差作为损失函数，如式（７）所示：
Ｎｋ
ｆ（Ｗ）＝ ∑ ｘ－ｗｘ（７）
ｉ ∑
ｉｊｊ
ｉ＝１ｊ＝１
通过求解式（７）的最小值，得到权重系数Ｗ。
ＬＬＥ算法假定，将高维样本映射到低维空间中，在低维空间保持样本在高维空间的局部线性关
Ｄ
系，并且权重系数保持不变，则高维空间中的点｛ｘ，ｘ，…，ｘ｝ ∈Ｒ通过权重系数Ｗ，映射到低维
２
１
Ｎ
ｄ
空间中，成为Ｙ＝｛ｙ，ｙ，…，ｙ｝ ∈Ｒ（ｄ Ｄ）。
１２Ｎ
ｄ × Ｎ
（３）动态聚类分析。将经过降维的样本集Ｙ ∈Ｒ（Ｎ为样本数）进行分类，划分为ｒ个子集，各子
集内的样本近似，而各子集之间的样本不同。通过求各子集的质心，提取属于该类的特征。本文主要
采用Ｋ均值动态聚类法（Ｋ－ｍｅａｎｓｄｙｎａｍｉｃａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ）对降维后样本进行分类［２２］。动态聚类
分析的基本思想是：通过该算法，将总体样本集划分为ｒ个子集，各子集内的样本最近似，而各子集
之间的样本最不同。再提取各子集的均值，得到属于该子集的特征。
分析时，先随机选择ｒ个样本点，作为ｒ个子集的初始聚类中心，计算所有样本与这ｒ个初始聚
类中心的距离，并把样本划分到与之距离最近的中心所在的子集中，使所有的样本根据距离聚集到各
个子集中，从而得到初始分类类别数以及初始子集。计算各子集所有样本的均值，得到新一代的聚类
中心，再次计算所有样本与新的聚类中心的距离，聚集后得到新的聚类中心，计算各子集所有样本的
均值。不断迭代，比较第ｐ代和第ｐ＋１代聚类中心，如果相差在范围之内，则认为计算收敛，从而得
到最终的子集及各子集的聚类中心。
该聚类方法收敛速度快，容易解释，聚类效果较好。但是该方法的聚类结果受初始聚类中心的选
择的影响较大。因此本文在迭代收敛后，不断的比较分析，判断子集数和初始子集中心是否合理，调
整子集数以及子集的初始中心，以此反复进行聚类的迭代运算，直至确定合理的空间分布特征类别数
和聚类中心。计算步骤如下：
①分析的样本集为 Φ＝｛Ｙ，Ｙ，…，Ｙ｝，Ｙ为低维空间中的映射点，ｒ为初始划分的子集数，
ｉ
１
Ｎ
２
Ｃ＝｛Ｃ，Ｃ，…，Ｃ｝为ｒ个子集。初始时Ｃ＝ ，ｊ＝１，２，…，ｒ。
ｊ
２
１
ｒ
０
②从 Φ 中随机选取ｒ个样本，作为初始ｒ个子集的各中心向量Ｚ＝｛ｚ，ｚ，…，ｚ｝（０为迭代
１
２
ｊ
ｒ
次数初始值）。
③对于ｎ＝１，２， …，Ｎ，计算样本Ｙ与每个聚类中心Ｚ＝｛ｚ，ｚ， …，ｚ｝的距离ｄ＝
ｉｊ
１
ｊ
ｉ
ｒ
２
２
Ｙ－ｚ，如果ｄ＝ｍｉｎ｛ｄ｝，ｉ＝１，２，…，Ｎ，则ＹＣ，更新Ｃ＝Ｃ∪Ｙ。
ｉ
ｊ
ｉ
ｊ２
ｉｊ
ｉｊ
ｊ
ｊ
ｉ
１
１
④对于ｊ＝１，２，…，ｒ，对Ｃ中的所有样本点，重新计算中心向量Ｚ＝ ∑ Ｙ（Ｙ  Ｃ）
ｉ
ｊ
ｉ
ｊ
ｊ
Ｃｊ
ｐ
ｐ
ｐ＋１
ｐ＋１
⑤ 不断重复迭代，如果Ｚ ≠Ｚ，ｊ＝１，２，…，ｒ，则回到③，重复迭代计算。如果Ｚ＝Ｚ，ｊ＝
ｊ
ｊ
ｊ
ｊ
１
— １０２ —

2 3 4 5 6 7 8 9 10 11 12