分类错误。? 统计学习引入了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知样本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值。? 置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,VC维越大,推广能力越差,置信风险会变大。Р2)经验非线性方法?如人工神经网络(ANN)?利用已知样本建立非线性模型。?缺点:缺乏一种统一的数学理论Р统计学习理论? —针对小样本统计估计和预测的最佳理论Р1.统计学习理论基本思想Р由贝尔实验室Vapnik于1992年首次提出Р研究小样本下机器学习规律的理论。针对小样本统计问题,建立了一套新的理论体系Р基本思想:折衷考虑经验风险和推广的置信界限,取得实际期望风险的最小化。即根据有限样本信息在模型复杂性和学习能力之间寻求最佳折中Р两大核心概念: VC维和结构风险最小化。Р在这一理论基础上,发展了一种新的通用模式识别方法——支持向量机(SVM)Р发展迅速,已经在许多领域都取得了成功的应用。РVC维的概念:?(VC是取Vapnik和Chervonenkis名字的首字而成)Р描述函数集或学习机器的复杂性的指标,即描述机器学习能力的重要指标Р样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小; ?分类函数的VC维,VC维越大,推广能力越差,置信风险会变大。?提高样本数量,降低VC维,降低置信风险。?以前机器学习的目标是降低经验风险,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,所以,结构风险也高。---- 这是SVM比其他机器学习具有优势的地方