模型计算出10个值,见表第4行.现在假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:Р, ,,而原模型的参数,,看来相差太大.计算,的样本相关系数得,表明与之间高度相关. Р 通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏,此时必须找到有效的方法来消除模型中的多重共线性.Р2.2 岭回归估计的定义Р 自变量出现多重共线性时,普通最小二乘估计明显变坏.当时,就会变得很大,这时,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号.设想给加上一个正常数矩阵,那么接近奇异的程度就会变小.先对数据作标准化,标准化后的设计阵仍用表示.Р 针对以上出现的多重共线性问题,霍尔(A.E.Hoerl)在1962年首先提出一种改进最小二乘法的方法叫岭回归,后来Hoerl和Kennard于1970年给予了详细讨论.岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法.当设计矩阵呈病态时,的列向量之间有较强的线性相关性. Р岭回归提出的想法是很自然的.考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用表示,回归参数的岭估计定义为,这里称为岭参数.上式还可记为:Р其中.由于假设已经标准化,所以就是自变量样本相关阵.可以标准化也可以未标准化,如果也经过标准化,那么计算的实际是标准化岭回归估计.作为的估计应比最小二乘估计稳定,当时的岭回归估计就是普通的最小二乘估计.因为岭参数不是唯一确定的,所以得到的岭回归估计实际是回归参数的一个估计族.取不同的值时的取值不同,以为横坐标,为纵坐标的Р直角坐标系,可分析估计族的稳定性.Р对于一般形式模型(1-1)式回归参数的岭估计为: