ce(x=fit) Importance varImpPlot(fit) 从返回的数据和图形可知,模型中乘客的性别字段最为重要,接下来是年龄(票价)和票价(年龄)。对待测样本进行预测,发现待测样本中存在缺失值,这里使用多重插补法将缺失值补齐。 library(mice) Imput<-mice(data=test,m=10) Age<-data.frame(Age=apply(Imput$imp$Age,1,mean)) Fare<-data.frame(Fare=apply(Imput$imp$Fare,1,mean)) #添加行标号 test$Id<-row.names(test) Age$Id<-row.names(Age) Fare$Id<-row.names(Fare) #替换缺失值 test[test$Id%in%Age$Id,'Age']<-Age$Age test[test$Id%in%Fare$Id,'Fare']<-Fare$Fare summary(test) 发现test数据集中不存在缺失值了。#原数据集模型的准确率分析 pred1<-predict(object=fit,newdata=train_impute) Freq1<-table(pred1,train_impute$Survived) Freq1 sum(diag(F))/sum(F) 模型的预测精度在90%以上。#新数据集的预测情况 pred2<-predict(object=fit,newdata=test) 这里报错,报错的原因是用于建立模型的数据集和test数据集不一致。test数据集中缺少 Survived变量,我在想,难道对于新的数据集(没有因变量)随机森林就无法预测了吗?还请阅读者给予帮助和建议。参考资料: hives/21036 数据挖掘:R语言实战微信扫一扫关注该公众号