膜区预测程序得分Р定量РnucР有核细胞蛋白质占无核和有核总体的判别分析得分Р定量РmitР线粒体和非线粒体蛋白质的N端氨基酸含量的判别分析得分Р定量РclassР蛋白质的分布位置?(10个水平)Р分类Р用summary(w)对数据进行初步描述统计,在接下来用V1到V10表示这10个变量,由于第1列数据是蛋白质序列编号我们在这里可以删除,处理后有9个变量,其中包括8个定量变量,1个分类变量,具体描述结果如下Р>w=read.csv("yeast.csv",sep='',header=F)?>summary(w)?对yeast数据集的基本信息特征的描述Р第二部分Р不同方法下对分类问题的研究Р在该问题下,我们把问题归结为主要对yeast(酵母)中蛋白质所在的位置进行分类,共有10个类别分别为(括号中为不同酵母中蛋白质位于该位置的数量):?CYT(463),NUC(429),MIT(244),ME3(163),E2(51),M?E1(44),EXC(37),VAC(30),POX(20),ERL(5)?以下是不同分类的效果Р不同的分类方法Р支持向量机分类Р经典判别分析Рbagging分类Рadaboost分类Р决策树分类Р随机森林分类РmethodР(一)分类及五折交叉验证分类方法Р分类(classification)就是经典统计中所说的判别(discrimination). Р当只有两个水平时, 可以采用logistic回归及probit回归(本数据有10个水平,此回归不可以采用)Р在自变量全部为数量变量时可以用经典多元分析中的判别分析(本数据可以采用). Р但是在多水平的因变量而且自变量也包含分类变量时,机器学习或数据挖掘的各种方法, 比如决策树的分类树, 神经网络, boosting, bagging, 随机森林, 最近邻方法, 支持向量机等.(这也是本数据主要的分析方法)