设它们都近似地服从正态分布分类线,左边的点属于A类,右边属于B类可见在判别时,可能出现误判。误判率的高低取决于如下两个因素:一是主观因素:分界线的位置要正确。例如上图中,分界线划在两个正态曲线的交点处,是最好的,它可以使误判率最低,将这条直线无论左移还是右移,都可能增大误判率。二是客观因素:如果两群点的均值离开得远一些,当然会有利于判别。此外即使两群点的均值不变,但方差变小,即两群点都更紧密地靠在均值附近,也会使误判率下降。此外分布的偏斜度等分布特征可能也会影响误判率。第一类因素是可控因素,判别分析方法,就是科学地确定分界线的方法。图中的分界线是否合理?但第二类因素一般是不可控的,一旦两类总体的样本数据给定,其均值、方差等也随之确定,因此应将注意力主要放在第一类因素上。但是,不同的指标会导致不同的样本数据,因而可能产生数据的不同特征,有的有利于分类判别,而有的则不利于分类判别。因此选择合适的指标是非常重要的。由于实际问题常见的是高维指标,通常并不能直观看出什么指标利于分类判别。因此选择适当的指标需要实际经验和多次反复试算。增加新的指标,可以增加判别的“分辨率”,但却可能增加计算的复杂性。为此在SPSS的判别分析模块中有逐步选择变量的方法,来解决确定合适的指标变量的问题。3.转化为数学问题设有两个总体:X(1), X(2)。总体X(1)中,有n1个个体,总体X(2)中,有n2个个体。每个个体的状况,都有p个特征(指标,或变量)的数据来表示。例如两个不同等级的运动员的体形数据、生理数据、心理数据,或者逃税与不逃税企业的财务数据等。从随机变量的角度,可以把已知的两个总体表达为两个随机向量:????TpTpXXXXXXXX)2()2(2)2(1)2()1()1(2)1(1)1(,,,,,,????或者简单地表示为:??.2,1,,,,)()(2)(1)(??iXXXXTipiii?