本文提出了一种对喷码文字的识别方法,先通过对字体轮廓、网格、投影等特征提取,然后,根据统计的特征所形成的分类器,进行投票法判决,最后针对文字体轮廓特征特别接近,提取内沿的局部特征进行第二次判决。这种方法已经在工业应用中取得了很好的效果。
一.概述
当今在发票,车票及门票上的数字均由喷码产生,由于受喷码时墨量和光照的影响,能产生多种变形,给我们的识别造成了很多难点。
图1
二 我们的方法
1.切割和归一化
先对图像的文字部分进行横向和纵向切割,我们采用的是投影的方法,然后再对切割出来的部分,进行大小归一化,归一化的方法主要两种,一种是普通的大小缩放,我们采用的是另外的一种方法.我们先求出文字的质心。
式(1)中 为1时表示该像素点为黑像素,为0时表示该像素点为背景。
然后再计算水平和垂直方向的散度:
2. 特征的提取
我们分别提取了待识别字体的网格特征,水平和垂直方向的投影特征,以及字体的边缘特征,但是对于光照的差别比较大的情况,这些方法受到的影响是非常大的,因为在光照偏弱的情况下,象素点的个数明显减少,以及造成字体边缘的缺损。对于零这个字体。
为了避免由此带来的识别错误我们对先切出来的字体进行象素点比率的统计,假如当它小于一个特定的门限值得时候,对它实施开运算,大于门限值得时候进行闭运算。(c)为(a)图进行膨胀后的结果,(d)为(b)细化后的结果.对于所提取的特征值我们通过正规化相交的公式求得最后的分类器。
其中 为由字体算得特征相量, 是待识别字体算得相量。然后根据这三个分类器通过简单投票法形成多分类器进行判别,即有两个或两个以上形成决策A,认为A是合法的。若每个分类器形成的决策是不多的,我们就选定公式3中算的最大值作为分类器决策。假设三种特征的识别正确率分别为p1,p2,p3.那么我们的方法在理论上能达到的正确识别率为:
P = p1*p2(1-p3)+p2*p3(1-p1)+p1*p3(1-p2)+p1*p2*p3
三 实验结果
运用我们上诉的方法,对图象进行识别,我们的算法能够给出正确的结果。
四结论
对我们的算法进行了一系列的测试和统计发现正确的识别率一般在99.9%以上,但是现在最大的问题是由于喷码文字边缘的不规则性,这就造成了Q,0,O,D之间有着极大的相似性。对于这类相似文字,我们对识别结果又加了一些局部特征量的判断比如说内沿特征,来进一步提高识别率。
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容,以保证您的权益!联系电话:010-58612588 或 Email:editor@mmsonline.com.cn。
- 暂无反馈