i)aiai,ip=1,2,TCov(Zi,Zj)aiaj,i,j1,2,p,i,jZ1称为第一主成分,我们希望将X的信息尽可能多地投影到主成分上,因此Z1方差达要到最大,这就使问题转化为约束优化的问题maxaaTs.t.aaT=1类似地,希望Z2的方差达到最大,并且要求Z2与Z1的协方差为0,由此得到第二主成分。文献[6]总结了主成分分析的计算方法和步骤,以及主成分的性质。主成分Z和原数据X满足关系ZQTX(4-2)其中,91QQT2p由此,可以计算主成分的贡献率i,随着取值增大,第主成分的贡献Zipiiii1率会逐渐下降,称前k个主成分的贡献率之和为累计贡献率,当累计贡献率达到某一阈值时,可以认为这些主成分能够完全代替原始数据,从而舍去其他主成分。这样达到了降维的目的,并保留了尽可能多的信息。4.3.2具体分析输入:DSPM25原始数据A输出:主成分矩阵(结果参见:样本数据包-pca处理后数据.csv文件)CAQ1...4(4-3)其中Q为运算过程的中间结果,详见具体过程。C=C14,...,C是一个4列150行的矩阵,每列Ci是一个随机变量,每行是一个观测样本在各主成分上的投影,C是新的数据矩阵,可以用于建模工作。具体过程:p{stats}对DSPM25原始数据进行主成分分析,得出各主成分的得出各主成分累计贡献率:表4-2主成分累计贡献率C1C2C3C4C5C6C70.5869910.8328450.9135460.9608180.9847760.9978041由此可以看出,前4个主成分已经代表了DSPM25原始数据96%的信息,因此选择主成分1~4作为后续工作的输入数据。下表是PCA方法计算出的载荷,给出了DSPM25原始数据每个变量在主属性中所占的权重矩阵Q(在PCA中也称为载荷)。10