Page 7 - 2024年第55卷第9期
P. 7
①在高维空间中,通过欧式距离量度,找到距离样本x最近的 K个样本。
i
②对每个样本x,求在它邻域里的 K个近邻的线性关系,得到线性关系权重系数W = (w ,w ,…,
i
i
i1
i2
T
w )(i = 1 ,2,…,N)
ik
③假定在高维空间和低维空间中,K邻域内,线性关系权重系数W 保持不变,利用W 在低维里重
i
i
D
D
d
构样本数据,实现x ∈R →y ∈R,d D。(R 为 D维度的高维空间,d为低维空间维度)
i
i
D
首先对高维空间中的 N个数据点 {x,x,…,x} ∈R ,计算每个样本点x与其它所有样本的
1
i
2
N
欧式距离,选择距离最小的 K个样本{x,x,…,x},每个x都可以用距离最近的 K个样本{x,
i1 i2 ik i i1
x,…,x}线性表达,如式(5)所示。
i2
ik
k
i ∑
x≈ 珋 = wx (5)
x
i
ij j
j =1
同时满足条件
k
∑ w =1 (6)
ij
j =1
以其均方差作为损失函数,如式( 7)所示:
N k
f(W) = ∑ x - wx (7)
i ∑
ij j
i =1 j =1
通过求解式( 7)的最小值,得到权重系数 W。
LLE算法假定,将高维样本映射到低维空间中,在低维空间保持样本在高维空间的局部线性关
D
系,并且权重系数保持不变,则高维空间中的点{ x,x,…,x} ∈R 通过权重系数 W,映射到低维
2
1
N
d
空间中,成为 Y = {y,y,…,y} ∈R(d D)。
1 2 N
d × N
( 3)动态聚类分析。将经过降维的样本集 Y ∈R (N为样本数)进行分类,划分为 r个子集,各子
集内的样本近似,而各子集之间的样本不同。通过求各子集的质心,提取属于该类的特征。本文主要
采用 K均值动态聚类法(K - meansdynamicalclusteringalgorithm)对降维后样本进行分类 [22] 。动态聚类
分析的基本思想是:通过该算法,将总体样本集划分为 r个子集,各子集内的样本最近似,而各子集
之间的样本最不同。再提取各子集的均值,得到属于该子集的特征。
分析时,先随机选择 r个样本点,作为 r个子集的初始聚类中心,计算所有样本与这 r个初始聚
类中心的距离,并把样本划分到与之距离最近的中心所在的子集中,使所有的样本根据距离聚集到各
个子集中,从而得到初始分类类别数以及初始子集。计算各子集所有样本的均值,得到新一代的聚类
中心,再次计算所有样本与新的聚类中心的距离,聚集后得到新的聚类中心,计算各子集所有样本的
均值。不断迭代,比较第 p代和第 p + 1 代聚类中心,如果相差在范围之内,则认为计算收敛,从而得
到最终的子集及各子集的聚类中心。
该聚类方法收敛速度快,容易解释,聚类效果较好。但是该方法的聚类结果受初始聚类中心的选
择的影响较大。因此本文在迭代收敛后,不断的比较分析,判断子集数和初始子集中心是否合理,调
整子集数以及子集的初始中心,以此反复进行聚类的迭代运算,直至确定合理的空间分布特征类别数
和聚类中心。计算步骤如下:
①分析的样本集为 Φ= {Y,Y,…,Y },Y 为低维空间中的映射点,r为初始划分的子集数,
i
1
N
2
C = {C,C,…,C} 为 r个子集。初始时 C= ,j = 1 ,2,…,r。
j
2
1
r
0
②从 Φ 中随机选取 r个样本,作为初始 r个子集的各中心向量 Z = {z,z,…,z} (0为迭代
1
2
j
r
次数初始值)。
③对于 n =1 ,2, …, N, 计 算 样 本 Y 与 每 个 聚 类 中 心 Z = {z, z, …, z} 的 距 离 d =
ij
1
j
i
r
2
2
Y- z ,如果 d= min {d},i = 1 ,2,…,N,则 YC,更新 C= C∪Y。
i
j
i
j 2
ij
ij
j
j
i
1
1
④对于 j = 1 ,2,…,r,对 C 中的所有样本点,重新计算中心向量 Z = ∑ Y(Y C)
i
j
i
j
j
C j
p
p
p + 1
p + 1
⑤ 不断重复迭代,如果 Z ≠Z,j = 1,2,…,r,则回到③,重复迭代计算。如果 Z = Z,j =
j
j
j
j
1
— 1 0 2 —