类别下的样本量个数。从原始数据中可知样本量为16,不是很多,如果再进行分块,可能由于样本量的限制无法得到最好的结果,因此,下文中的训练集和测试集均选用原始数据来充当。Р二.建模应用:财政收入的数据分析Р2.1分类与预测:回归分析Р回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量之间的关系。这种技术通常用于预测分析以及发现变量之间的因果关系。本次运用了lm函数进行回归建模。РMultiple R-squared和Adjusted R-squared这两个值,常被叫做“拟合优度”和“修正拟合优度”,是指回归方程对样本的拟合程度,越接近“1”,拟合程度越高。显然,这个回归模型的拟合优度为0.9764,拟合程度一般。而标准化残差则可以认为是模型用城市居民年人均可支配收入、城镇非私营单位从业人员数、城镇居民储蓄存款余额、地区生产总值、第二产业增加值、地方财政收入、政府性基金收入预测个人所得税的平均误差。各个变量的P值都大于0.05,即各个变量都显著不为零。Р图 1Р图1为模型的回归诊断图。左上图是残差对拟合值做图,显然残差值与拟合值就没有任何系统关系,即因变量与自变量存在相关关系;右上图为残差QQ图,用以观察残差是否符合正态分布,显然图上的点基本都落在呈45°的直线上,即残差满足正态分布;左下图是标准化残差对拟合值,用于判断模型残差是否等同方差,图上的点呈随机分布状态,故模型残差满足同方差假设;右下图是残差与杠杆图。Р2.2聚类分析:Р2.2.1 层次聚类算法Р图 2Р从图2可以看出,在聚类树的最下端,每个样本独自为一类,越往上,一条分支里的样本多,直至所有的样本聚为一类。Р2.2.2其他聚类分析函数Р Р(聚类概率分布)图 3Р Р(聚类结果)图 4Р三.时间序列分析Р3.1导入时间序列对象Р3.2绘制原始时间序列图Р图 5Р由图5可见原始时间序列图呈单调递增趋势。