需要在聚类过程中确定,k个簇需要满足如下条件:Р Р Р Р上述三个条件的含义是:每个簇至少包含一个数据元素,任何一个数据元素属于且只属一个簇。从集合论角度讲,聚类结果实际上是对集合D的一个划分。当然这里不考虑模糊聚类,对于模糊聚类,一个数据元素可以属于多个簇,以隶属度加以区分。Р1.1.3 聚类分析的一般过程Р聚类分析的过程一般包括特征提取与选择、相似性度量、聚类算法、聚类有效性检验四个部分。其中聚类有效性检验贯穿在整个聚类分析过程之中[2]。如图2所示。Р图1-1 聚类分析的过程Р特征提取与选择是聚类分析的基础,这又和具体用于解决的问题息息相关。对于同样一组对象采用不同的特征聚类,结果可能是完全不同的,只有选择和提取合适的特征,聚类过程才能得到所需要的结果。相似性度量是聚类分析的非常重要的基础。选择不同的相似度度量方法,某种程度上决定了使用什么样的聚类算法。常见的相似性度量主要是“距离”度量、角度度量和相关系数。聚类算法的选择和使用是聚类分析的核心步骤,聚类算法以选择了特征之后的数据集、算法的参数为输入,以包含簇标的数据集为输出。聚类算法的性能、聚类算法和问题的匹配程度某种程度上决定了整个聚类分析过程的成败。聚类的有效性检验可以说是一种反馈机制,根据有效性检验结果,需要对聚类的其它三个环节进行调整,从而获得满足问题要求的聚类结果。Р1.1.4 聚类分析的作用Р聚类分析旨在无类别标签的训练样本条件下,根据数据本身的特征分布提炼出数据的内在的模式或结构。总的来说它主要有三个作用[1-3]。Р聚类本身是人类学习的一种重要方式。在没有人指导的情况下,人类可以根据自己的实践经验总结,对不同的事物进行分门别类。对于某些2维数据人类自己可以通过观察对其进行分类,但对于更高维数据人类就束手无策了。借助聚类分析可以通过计算机运行一定算法对更高维数据进行分门别类,从而拓展人类对数据的认知。