料库的文本总数逆文档频率(IDF)log()(4)包含该词的文本数+1第8页第三步,计算TF-IDF值(TermFrequencyDocumentFrequency)。TF-IDF=词频(TF)×逆文档频率(IDF)(5)实际分析得出TF-IDF值与一个词在职位描述表中文本出现的次数成正比,某个词文本的重要性越高,TF-IDF值越大。计算文本中每个词的TF-IDF值,进行排序,次数最多的即为要提取的职位描述表中文本的关键词。2.1.2.4生成TF-IDF向量生成TF-IDF向量的具体步骤如下:(1)使用TF-IDF算法,找出每个职位描述的前5个关键词;(2)对每个岗位描述提取的5个关键词,合并成一个集合,计算每个岗位描述对于这个集合中词的词频,如果没有则记为0;(3)生成各个岗位描述的TF-IDF权重向量,计算公式如下:TF-IDF=词频(TF)×逆文档频率(IDF)(6)2.1.3职业类型的分类生成职位描述的TF-IDF权重向量后,根据每个职位的TF-IDF权重向量,对职业进行分类。这里采用K-means算法把职业类型分成7类。K-mean聚类的原理如下:假设有一个包含n个d维数据点的数据集X{x1,x2,,xi,,xn},其中dxiR,K-means聚类将数据集X组织为K个划分C{ck,i1,2,,K}。每个划分代表一个类ck,每个类ck有一个类别中心i。选取欧式距离作为相似性和距离判断准则,计算该类内个点到聚类中心i的距离平方和2J(c)x()kik1xickKJ(C)J(c)聚类目标是使各类总的距离平方和k最小,k1KK2Kn2J(C)J(c)xdxkiikiii(2)k1k1xiCik1i11,若xici其中,dki,所以根据最小二乘法和拉格朗日原理,聚类中心k0,若xici第9页