全文预览

文本数据聚类算法的若干关键技术及其应用的研究

上传者:苏堤漫步 |  格式:pdf  |  页数:55 |  大小:0KB

文档介绍
[37]结合文本分类算法和概率模Р型创建出一个有效的聚类方法。该类方法可以有效的利用side-information来优化聚类结Р果并解决文本数据不够纯净的缺点,side-information包括文本之间的链接、网络日志的Р用户访问行为和其他嵌入文本中的非文本属性。Р 9. 谱聚类(Spectral Clustering)[65–67]是由图的最小代价分割推导出来,相比于如РK-Mean等聚类方法有较好的表现,是目前学术界应用较为普遍的聚类方法之一。文献[63]Р利用谱聚类进行面向文本的协同聚类研究,文献[71]中提出基于非负矩阵分解的谱聚类算Р法。Р1.2.2 大数据文本聚类算法Р 大数据时代的到来,超大规模的数据的涌现,使得如何对超大规模的数据进行聚类Р成为一个巨大的挑战。Р 面对大数据,较多传统文本聚类算法无法依靠单机完成工作,现实中急需对大数据Р做各种文本聚类分析。针对大数据聚类问题,Huang[39]改进K-Means算法提出K-Modes 算Р法,该算法解决了K-Means只能处理处理数值信息的限制,成功地将该算法应用于包含Р10万条数据,34个类别的文本聚类。Huang等人[40]提出了一种基于扩展的文本聚类算法,Р该算法首先应用AP算法[41]进行初步的聚类,其次利用NormalizedCuts做二次聚类,该算Р法在图像的聚类实验中有较好的表现。Р 针对大数据聚类算法效率问题,Khaled Alsabti等人[42]提出了一种基于K-Means和k-dР树[43]的算法,该算法利用k-d树组织聚类对象,在算法迭代过程中可以快速找到相似结Р点。Jason Cong等人[44]则提出了自底向上的层次聚类算法,该算法通过递归的压缩较小Р的簇,直到得到满足条件的簇类。Р 面对大数据,学术界和工业界积极研究并行运算平台,目前MapReduce和GraphLabР 3

收藏

分享

举报
下载此文档