全文预览

基于机器学习的社区评论垃圾识别过滤研究本科毕业设计论文

上传者:hnxzy51 |  格式:docx  |  页数:71 |  大小:515KB

文档介绍
formation retrieval. ACM, 2006: 178-185.Р ,包含词、主题和文档三层结构。给定一个文档集合,LDA将每个文档表示为一个主题集合,每个主题是一个多项式分布,用来捕获词之间的相关信息。在LDA中,这些主题被所有文档所共享;每个文档有一个特定的主题比例。РLDA模型较之LSI/PLSI等模型有着突出的优点曹娟,张勇东, 李锦涛. 一种基于密度的自适应最优犔犇犃模型选择方法[J]. 计算机学报, 2008, 31(10).Р:首先LDA模型是全概率生成模型,因此具有清晰的内在结构,并且可以利用高效的概率推理算法进行计算;再者,LDA模型是通过无监督方法进行训练的,与训练样本数量无关,因此更适合处理大规模文本语料。Р基于电阻网络的识别方法Р谭文堂提出了一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络平均电能消耗的影响,建立电离群因子来度量数据的离群程度,以此来识别垃圾评论谭文堂,朱洪,葛斌.垃圾评论自动过滤方法[J].国防科技大学学报,2012,34(5):153-157.Р。Р基于半监督学习的垃圾评论识别Р针对网络博客空间中垃圾评论泛滥的问题,给出一种半监督学习式网络垃圾评论检测方案。基于评论内容的统计分析,设计相关度词组重复率、超链接数目、内容淫秽度、句子长度共5个特征指标,通过这5个指标特征,识别博客空间中的评论垃圾,有较好的效果郭利强. 网络博客空间中基于半监督学习的垃圾评论检测[J]. 图书情报工作, 2012, 56(04): 52-55.Р。Р基于规则的垃圾评论识别Р在网络社区中,经常有同一用户发表大量完全相同或几乎相同的内容,称之为重复评论,重复评论是垃圾评论的可能性较大,可以通过一定规则去除。

收藏

分享

举报
下载此文档