OCR技术实现汉字电子化

作者: 厦门云脉技术有限公司 来源: http://www.yunmai.com/ 时间: 2016-06-29

汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的贡献,并将继续发挥其重要的、其它文字形式难以取代的作用。在当今社会,每天都有数以亿计的手写和印刷汉字需要识别和处理,并且随着现代信息交流的不断加强和计算机应用的不断普及,这种需求逐年猛增。邮电通讯、新闻出版、办公自动化等等,都需要将手写或印刷的汉字转变为电子化信息,以便能够更加快捷地进行信息处理和交流。这就要求人们对汉字的机器识别进行广泛而深入的研究,找出实际有效的解决办法。

汉字识别的方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。所谓结构识别方法,其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。统计识别方法是将汉字看为一个整体,其所有的特征是从这个整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。统计识别的特点是抗干扰性强,缺点是细分能力较弱。

对汉字的机器识别的研究最早始于70年代的日本,包括手写汉字样本库的建立、各种特征选择和匹配方法的研究和实验等等。1981年5月,富士通的研究人员公开展示了第一个印刷体汉字识别模式。我国在这方面的研究起步较晚,到1988年后才出现初步实用的印刷体汉字识别系统。由于面对的汉字的数量更大,因此我国更偏重于结构方法的研究,包括基于属性文法方面的研究、基于笔画和部件抽取方面的研究、识别的前后处理的研究等。

上世纪80年代末以来,手写汉字识别的研究更趋活跃,各种思想、方法乃至体系不断涌现,特别是在结构匹配、松弛计算以及人工智能的应用等方面取得了长足的发展。近年来,神经网络和支撑向量机(SVM)在汉字识别中的应用也成为研究的热点。

目前,随着手写汉字识别研究的深入发展,实验系统逐渐成熟,实用化研究成为一个普遍关注的问题。无论是识别范围还是识别性能,都趋向于实用化的研究。目前,已经开发出了较高水平的OCR技术、笔输入技术和笔迹鉴别技术。OCR是指通过扫描仪将印刷或书写在纸面上的文字输入到系统后进行识别。由于系统工作时,文字已经书写完毕,因此被称为脱机文字识别。OCR又有印刷体OCR和手写OCR之分。笔输入系统是通过专用的书写板和笔输入文字,由于一边写一边识别,也称为联机文字识别。从技术难度来讲,脱机识别比联机识别难度要大,而手写体脱机识别自然又比印刷体脱机识别的难度大。目前的笔输入技术、印刷体OCR技术已经达到较高的实用化水平,而手写体OCR技术也在向实用化迈进。从应用方面看,由于笔输入技术是掌上电脑Palam PC理想的输入手段,因此得到了比OCR更大的应用面。但是,随着社会信息化程度的提高,邮政、银行、税务、图书馆等行业对OCR提出了更多的要求,产生了巨大的市场空间吗,也成为目前汉字自动识别实用化研究的热点之一。