,每个区间称为一个bin ,数据按照这些区间划分成若干组,每组数据的个数与总的参样个数的比值就是每个 bin 对应的概率值。在此基础上再定义一个用于平滑的核函数。Р2.4.2 核密度估计原理Р为了说明核函数估计的原理,我们先对简单的一维的情况进行讨论。设{Xi}i=1,,,,n为一维欧几里得空间中的任意一组数据点,则由核函数 K ( x)和核窗半径h在数据点 x处计算出的核密度估计值定义为Р (2-1)Р若取核函数Р (2-2)Р则有Р (2-3)Р其中, h 为核函数的带宽,且Kh(x)满足Kh(x)>0,Kh(x)=Kh(-x),∫Kh(x)dx=1Р由于Kh(x)=Kh(-x)即核函数Kh(x)关于中心点 0是对称的,因此,Kh(x-xi)关于点xi是对称的,也即xi为Kh(x-xi)的中心点。于是, (2-3)式可以解释为:概率密度函数的估计值即为以各个数据采样点为中心的核函数的平均值。Р2.4.3 核函数的选取Р在2.4.2 节中,我们已知核函数 K ( x )需要满足几个条件: K ( x ) > 0,K ( x ) = K (- x),∫K ( x )d x=1。可见核函数具有对称性、单峰性和有限局部支撑性。单峰性是指核函数的值从中心点开始向两侧迅速衰减到 0,有限局部支撑性是指,在核函数的窗宽h内,核函数的值大于 0,而在核函数的窗宽以外的数据点出,函数值则为 0。满足这样的条件的函数有很多,目前实际应用中常用的核函数主要有:均匀核函数(Uniform)、伊潘涅切科夫核函数(Epanechnikov)、双伊潘涅切科夫核函数(Double Epanechnikov)、三角核函数(Triangle)、高斯核函数(Gaussian)、双权核函数(Biweight)和双指数核函数(Double Exponential)。这几种常用的核函数的具体形式如图 2-1所示。