r l) WRB 算法: RB 算法虽然具有无参数,鲁棒性高,实时性,更新能力强等优点,但是有两个缺点(1)判断孤立点的依据测度 R ClusterSize (O,r l1)1 ROF ( O),完全依赖聚类产生的类所包含的点的个 ClusterSize (O,r l) l1 数。而没有考虑到不同的的类有不同的稠密性,在聚类的时候,也只是由全局设定的分辨率以及两点之间的欧式距离来决定目标点是否应该被划入某个簇。在对孤立点按孤立程度排序时,往往因为忽略类的稠密度,和数据点周围的局部环境使得孤立点的排序不正确,也就是说一个点在对一个较密集与较疏集欧式距离相同的情况下,其相对于较密集的孤立程度应比相对于较疏集的孤立程度要大,所以体现在算法上,其算法的等效距离要大。于是,在 RB 的基础上我们提出了 WRB 算法给定一个数据集 D,在当前分辨率下设定每个类的初始稠密度=1 If(在当前的分辨率下,类没有融合进新的数据点)该类的密集度不变 Else 类的稠密度=clustersize/M M= 已经变化的分辨率值和倒数和当每个类如果融合进了新的点,类所在的范围必定也会变大。而当分辨率越来越当前分辨率变化数小,范围测度 M 1 就会越来越大,每个类融入的点越来越多, l1r l clustersize 稠密度值 D cM 也会随之变化。 1D tT Md WRB 聚类算法思路: 在当前分辨率 r和数据集 D: 1.对于每个点 O,对于所有与点 O间的距离小于等于阀值的点,找出每个维度正负方向与点 O最近的领近点。 2.选择没有被打标记的数据点,为其赋上类标记 C。为其设定一个初始临近点数组 nChain ,将 C的类大小设置为 1 3. 对该数据点的邻居点进行扫描,对于每个邻居点:如果该邻居点没有被打标记, 则将该邻居点放入数组 nChain ,并打上类标记为 C ,将 C 的类大小加