全文预览

基于朴素贝叶斯的文本分类算法-毕业论文.doc

上传者:业精于勤 |  格式:docx  |  页数:17 |  大小:0KB

文档介绍
na。Р2.4两个模型的区别Р二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。Р计算后验概率时,对于一个文档d,多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反方”参与的。Р第3章代码详解Р本文附带了一个eclipse工程,有完整的源代码,以及一个微型文本训练库。РChineseSpliter用于中文分词,StopWordsHandler用于判断一个单词是否是停止词,ClassifyResult用于保存结果,IntermediateData用于预处理文本语料库,TrainnedModel用于保存训练后得到的数据,NaiveBayesClassifier是基础类,包含了贝叶斯分类器的主要代码,MultiNomialNB是多项式模型,类似的,BernoulliNB是伯努利模型,二者都继承自NaiveBayesClassifier,都只重写了父类的计算先验概率,类条件概率和后验概率这3个函数。Р3.1中文分词Р中文分词不是本文的重点,这里我们直接使用第三方工具,本源码使用的是极易中文分词组件,你还可以使用MMSEG,中科院的ICTCLAS等等。Р/**Р* 对给定的文本进行中文分词.Р*Р* @param textР* 给定的文本Р* @param splitTokenР* 用于分割的标记,如”|”Р* @return 分词完毕的文本Р*/Рpublic String split(final String text, final String splitToken) {РString result = null;Рtry {Рresult = analyzer.segment(text, splitToken);

收藏

分享

举报
下载此文档