句法两种识别方法。Р经过特征提取后,就可以进行识别(分类)了。识别就是在特征空间中用统计决策方法或句法分析方法将被识别对象归为某一类别。对于汉字识别,由于类别数巨大,故往往采用多级分类策略,以提高识别效率。输入的汉字首先经前一级或几级处理,判定它属于整个汉字集合的某一子集,然后再判定它属于该子集的某个类别或更小的子集。前面的一级或几级称为粗分类或预分类,最后一级称为细分类或识别。由于与整个汉字集合相比较,每个子集的字数要少得多,因此,采用多级分类策略可以缩短匹配时间,提高识别速度。Р系统的最后一级是后处理。单字识别完成之后,系统可以利用上下文或其它方面的信息来纠正一些识别错误,以提高系统的识别率。Р目前,手写体字符识别的研究依然以单字识别为主,即自分割好的字符图像开始,至输出单个字符的识别结果为止,这是整个识别系统的核心。而单字识别中,最关键的又是特征提取和相应的分类方法。Р脱机手写文字识别的基本过程如下:书写在纸张上的手写体文稿用数码相机拍下成“JPG”格式的图片,把此图片转化为“bmp”格式,在转化为一个二维点阵图象,由预处理阶段对所得图象作相应处理,识别阶段首先提取文字图象的特征,然后根据特征对待识别文字进行判别。Р手写体汉字文稿Р图象的获取Р预处理Р特征提取Р分类识别Р识别输出Р二值化Р文字切分Р中值滤波去噪Р归一化Р细化Р图2.1 脱机手写汉字识别系统框图Р 0 0 0 1 0 0 0Р 0 0 0 1 0 0 0Р 1 1 1 1 1 1 1Р 0 0 0 1 0 0 0Р 0 0 0 1 0 0 0Р图2.2 二值点阵图“十”字Р 如图2.1所示,数码相机拍下的手写文字,经模数转换成具有一定灰度值的数字采样信号送入计算机,预处理环节一般包括消除噪声,二值化,行字切分、平滑(或中值)、归一化,细化等。经过预处理的文字成为规范化的二值点阵信息(如图2.2),其中“