全文预览

基于k近邻地手写数字识别

上传者:火锅鸡 |  格式:doc  |  页数:19 |  大小:364KB

文档介绍
知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。2.2k近邻算法的工作原理存在一个样本数据集合(即训练样本集),并且样本集中每个数据都存在标签(即每个数据与所属分类的对应关系)。输入没有标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,算法将提取出样本集中特征最相似数据(最近邻)的分类标签。一般选择样本数据集中前K个最相似的数据,k一般不大于20的整数。2.3k近邻算法的算法步骤Step.1计算已知类别数据集中的点与当前点之间的距离;Step.2按照距离递增次序排序;Step.3选取与当前点距离最小的k个点;Step.4确定前k个点所在类别的出现频率;Step.5返回前k个点出现频率最高的类别作为当前点的预测分类。2.4k-近邻算法的优缺点k-近邻算法拥有以下优点:精度高、对异常值不敏感、无输入数据假定k-近邻算法拥有以下缺点:时间复杂度和空间复杂度都很高三k近邻算法分类mnist的具体方法数据先预处理,将下载的初始图像数据读入MATLAB,并储存为三维的矩阵,再读入标签文件,储存为二维矩阵,以便后面的使用。手写数字图像都为28像素*28像素,对于每一个数字图像,计算其与每一张训练图像的距离,对于一张待测图像与训练图像,计算每一个像素的差值,如果差值大于参数45,则这两站图的距离加一,直到784个像素点全部计算完毕,得到两张图的距离。再用排序找到与该张数字图像最近的k张图像,对距离最近的k张图像根据训练数据标签进行分类,找到k张图像中最多的数字,该张测试数字图像即划分为该数字类。四实验结果与分析4.1待测图像图4.1待测第1张图图4.2待测第2张图图4.3待测第3张图图4.4待测第4张图

收藏

分享

举报
下载此文档