全文预览

数据挖掘实验报告

上传者:似水流年 |  格式:doc  |  页数:20 |  大小:978KB

文档介绍
,由于篇幅原因,只截取其中两个属性,现在就所选截屏属性作申明,选第一项ClumpThickness(丛厚度))和第九项Mitoses(有丝分裂)。3.3.1决策树分类用“Explorer”打开刚才得到的“乳腺癌数据集.csv.arff”,并切换到“Class”。点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是Weka中实现的决策树算法。选择Cross-Validatioin folds=10,选择图中箭头指向选择属性,然后点击“start”按钮。得到结果如图7和图8所示:(图7)(图8)这个是针对第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项运用C4.5决策算法得到误差分析的结果,分析可知总共有699个数据进行分类,ClumpThickness(丛厚度)其中102个为正确分类,正确分类率为26.03726%,517个为错误分类,错误分类为73.9268%。而第九项Mitoses有丝分裂项也是分析699个数据,其中正确分类有579个数据,正确率为82.8326%,错误分类的有120个,错误分类的有17.1674%。根据混淆矩阵,被错误分类实例很多,错综复杂,如图9所示:(图9)3.3.2贝叶斯分类在刚才进行决策树分类的的那个页面,点“Choose”按钮选择“bayes”,再选择Cross-Validatioin folds=10,同样选择图中箭头指向选择属性,然后点击“start”按钮:为了与上面决策树作比较,贝叶斯也选择第一项第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项,得到结果如下图10,11所示:(图10)(图11)这个是针对第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项运用贝叶斯算法得到误差分析的结果,分析可知总共有699个数据进行分类,

收藏

分享

举报
下载此文档