全文预览

大工19秋《数据挖掘》大作业题目及要求答案

上传者: |  格式:doc  |  页数:10 |  大小:179KB

文档介绍
nts,key=operator.itemgetter(1,2))即先跟句第二个域排序,再根据第三个域排序;第三个参数reverse是一个bool变量,表示升序还是降序排列,默认为false升序排列,定义为True时将按降序排列。此处sort函数用于对字典进行排序。按key_value降序排列,即对应label个数从大到小排列。返回值为列表,列表元素为元组,元组第一个元素对应label,第二个元素对应label个数。sortedClassCount[0][0]即返回label次数最多的类标号,为inX的label。下面测试一个简单的向量:输出为下面函数file2matrix用于从txt中读取原始数据并转化为矩阵。test.txt格式为最后一列为label,值为largeDoses、smallDoses或didntLike。每行元素用\t隔开。转换后label分别对应3、2、1。转换函数如下:首先打开文件并获取行数,建立一个相同大小的空矩阵,用于存储转换后的属性集,并新建一个一维列表,用于存放类标号。fr.readlines()读取所有行,得到一个行列表,列表元素为每行内容;readline只读取1行,获取该行元素的列表。上述函数即返回属性集矩阵和类标号列表。因为属性值差距较大,为了减少值太大的属性对值小的属性的影响,分类之前还需要进行归一化。归一化方程为(datain-min_val)/(max_val-min_val),输出值都介于0-1。返回归一化以后的属性集。即可进行距离运算并分类。下面函数即对文件中所有输入的行向量属性进行分类将测试文件分为数据集和用于测试的向量2部分。前一半用于测试,后一半作为数据集,并定义errorCount用于统计出错个数。经过归一化以后的数据集和验证通过for循环计算分类结果,并与实际结果进行对比,得到总出错数和出错率。执行该函数,结果显示:

收藏

分享

举报
下载此文档