对于因医疗条件不佳而不能进行РР2 / 5РРР【原创】?定制撰写数据分析可视化项目案例调研报告?(附代码数据)РР有问题到淘宝找“大数据部落”就可以了РРР活检或病灶位置不易进行活检的病人来说具有较高的实用价值。РР其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性” “裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝РР分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。РР最后,通过对 Confusion Matrix 的分析可知,该模型存在两类错误 : 将良性误诊为恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人РР情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明,РР犯第二类错误的概率较低,特别在测试集中,准确率达到了?100%。РРРРР三、?聚类РР数据预处理РР由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将?Class属性类РР型由 Nominal 转换为 Numeric 。用 0 表示 benign,即良性; 1 表示 malignant ,即恶性。这样各个簇中的数值越接近 1,表明该簇中恶性肿瘤比例越高。РР实验过程РРSimplekMeans 算法,设置参数 numClusters=5 ,seed=50 进行聚类运算,得到结果РР如下:РРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРР结果分析РР上述聚类结果共有五个簇,而且恰巧 Class属性的均值均为整数,这表明每一个簇中的各实例的肿瘤性质相同。РР3 / 5