您好, 访客   登录/注册

基于卷积神经网络的手写汉字识别研究

来源:用户上传      作者:

  摘 要:神经网络仿照生物神经元的工作原理,本质上是输入与输出之间的一种映射,卷积神经网络具有参数共享机制与连接的稀疏性,其对传统神经网络层级结构中层的功能和形式做了部分变化,通过局部连接的方式,形成了一种特殊的结构化多层前馈神经网络,具有较强的鲁棒性与泛化性能。基于此,以卷积神经网络为模型,构建出汉字识别网络,进行汉字样本特征提取和分类输出。
  关键词:卷积神经网络;汉字;识别
  目前,手写汉字识别可分为联机与脱机两种形式,其中联机手写体汉字识别主要处理书写者依托物理设备即时输入的文字信号,而脱机手写体汉字识别主要处理图像设备采集到的图像形式文字信息。一般来说,脱机手写文字识别比联机手写文字识别更加困难。汉字识别属于人工智能范畴,目前是个研究热点,且具有挑战性,繁杂的汉字字符、随意性无约束性的手写字体等因素会增加汉字识别难度,造成识别错误、无法识别等问题。因此,需要寻找更加有效的方法,以推动汉字识别的发展。卷积神经网络是基于深度学习的前馈型的神经网络,非常适用于处理大型图像,将其运用于汉字识别工作中,有利于简化汉字识别流程,产生更好的识别效果。
  一、卷积神经网络的特点与结构
  (一)卷积神经网络的特点。神经网络仿照生物神经元的工作原理,本质上是输入与输出之间的一种映射,卷积神经网络具有参数共享机制与连接的稀疏性,其对传统神经网络层级结构中层的功能和形式做了部分变化,通过局部连接的方式,形成了一种特殊的结构化多层前馈神经网络,核心在于它的kernel,特点是头重脚轻,实现了参数共享,避免BP神经网络反向传播梯度损失过快的问题。[1]运用卷积运算取代一般的矩阵乘法运算,避免了显式特征抽取,提升了神经网络模型的泛化能力与鲁棒性,开启了神经网络新时代。在实际应用领域,卷积神经网络是一种高效的识别算法,也是一种多层感知器与特征提取器,通过卷积方式来提取图像数据特征,能够专门处理具有网格状拓扑结构的数据,被广泛应用于人脸识别、图像识别、语音分析等计算机视觉应用领域。在卷积神经网络中,首先对于图片中的每一个特征进行局部感知,然后更高层次对局部进行综合操作,从而得到全局信息;每个卷积滤波器共享权值,同一特征映射面具有相同神经元权值,无需考虑图像局部特征坐标位置,使得对高维数据处理无压力,减少了特征提取与分类数据重建难度;无需手动选取特征,利于特征图的精确提取与分类识别。
   (二)卷积神经网络的结构。卷积神经网络的结构组成可分为五部分,依次为数据输入层、卷积计算层、池化层、全连接层、输出层。输入层是整个神经网络的输入,在处理图像的卷积神经网络中,它一般代表了一张图片的像素矩阵,卷积神经网络的输入层可以处理多维数据;卷积层是一个卷积神经网络中最重要的部分,由滤波器和激活函数构成,进行局部关联与窗口联动操作,能够提取数据图像的特征,将神经网络中的每一个小块进行更加深入的分析从而得到抽象程度更高的特征;池化层又叫下采样层,用于压缩数据和参数的量、降低数据维度,对样本数据进行子抽样操作,具有保持信息尺度不变性特征,可以去除冗余信息,抽取重要特征,防止神经网络的过拟合;全连接层是一排神经元,用于连接扁平化多维数据,在卷积神经网络的最后部分,是对提取的特征进行非线性组合以得到输出,用来完成分类任务。输出层的结构和工作原理与传统前馈神经网络中的输出层相同,对于图像分类问题,输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签[2]。
  二、基于卷积神经网络的汉字识别
  在传统的汉字识别方法中,常用弹性网格特征、方向线素特征以及Gabor特征方法,来提取汉字特征,例如,方向线素特征是根据汉字的八方向线素特征与路径签名特征,来提取图像中汉字内在特征;提取特征之后,用模板匹配法、决策树算法、Adaboost算法等来对汉字图像进行分类。传统的方法需要人工干预,需要做出大量的工作,且识别的效果有限。
  随着计算机技术的发展,数据信息技术与智能技术为汉字识别提供了新的实践与理论模式,使得汉字识别数字化与智能化成为可能。深度学习技术的发展,满足了手写汉字识别革新需求,使得联机和脱机手写汉字的识别率都大为提升,同传统的方法相比进步非常明显。利用深度学习的方法进行手写汉字识别,不需要人工提取汉字特征,深度神经网络会自动完成汉字图像特征的提取和分类。目前,在汉字识别领域,具有代表性的神经网络为CNN和RNN,CNN主要用于对汉字单字的识别,RNN主要用于文本行的识别。下面主要对基于卷积神经网络的汉字识别进行介绍。
  (一)基于卷积神经网络的汉字识别流程。在传统的汉字识别流程中,可分为预处理、特征提取与降维、分类器分类与识别以及输出结果等几个模块,其识别性能较为不稳定、识别速率不高,耗时费力。对于卷积神经网络,想要完成汉字识别,首先必须准备大量的手写汉字样本,一般情况下,手写汉字的识别流程为:收集汉字样本集和测试集、利用样本训练卷积神经网络、调参、利用测试集进行测试、输出测试结果。[3]对于卷积神经网络而言,由于网络良好的特性,能够从不同的样本图像中提取出最能表达汉字本质的数据特征,实现对大规模汉字样本集的训练,大大提高了汉字识别率与正确率。
  (二)汉字识别流程主要步骤介绍。首先,要从网络上搜集汉字样本,手写汉字样本可以利用中科院自动化研究所模式识别国家重点实验室的CASIA-HWDB 数据集,这里有充足的手写汉字样本,只有利用多样的样本来构建充足的训练数据集,才能防止出现过拟合,为训练卷积神经网络做好数据准备,进而提升识别性能。此外,可根据自身需求,对样本进行预处理,运用数字图像处理技术增强汉字对比度,[4]对图像进行平滑去噪处理,进行随机形变、随机噪声,减少因为不均匀光、噪声干扰等因素造成的笔画模糊、断裂、缺失等问题。利用缩放大小、水平或垂直拉升、角度变化等变换方法处理汉字图像样本。其次,选取合适的卷积神经网络模型,越深的网络模型,通常参数调整难度较大,训练过程极为耗时,因此在选择神经网络时,应该根据各种网络模型的特性,选择合适的网络。经典的CNN模型有LeNet5、AlexNet、VGG、GoogleNet、ResNets等,各自有自己的特色,其中LeNet5最早用于手写字符的识别,后面几种模型都是近些年提出的,逐渐变得层数更多,且都有自己的创新点。当然,除此之外,我们还可以在前人的基础上,构造自己的卷积神经网络,通过不断调整网络结构和权值参数,来构造出最合适的网络模型。最后,利用设计好的卷积神经网络模型,逐层提取手写汉字图片特征,然后对提取的特征进行非线性组合以得到输出。
  三、结语
  随着人工智能的蓬勃发展,现代社会中信息量空前扩大,人机交互与信息处理成为了信息技术发展的重要课题之一,汉字识别已成为研究热点。一方面,人工智能、信息技术等新兴技术发展为漢字识别提供了全新的工具与思路,另一方面,汉字识别的发展需求也推动着各学科生产变革。从现阶段下汉字识别发展情况而言,尽管当前汉字识别已经取得较大进展,能满足人机快速交互需求,但是也存在着很大部分的发展空间。得益于大型的计算集群、数据存储技术巨大进步,卷积神经网络在处理计算机视觉数据方面突显出很大的优势,能够辅助汉字识别工作,对汉字准确识别有重要意义。
  参考文献:
  [1] 李斯凡,高法钦. 基于卷积神经网络的手写数字识别[J]. 浙江理工大学学报,2017,37(3):438-443.
  [2]Ng,A.,Kian,K.and Younes, B. Convolutional Neural Networks, Deep learning.
  [3] 常欢 . 基于卷积神经网络的孤立手写体汉字识别研究 [D]. 安徽大学 ,2015.
  [4] 宋光慧 . 基于迁移学习与深度卷积特征的图像标注方法研究 [D]. 浙江大学 ,2016.
转载注明来源:https://www.xzbu.com/1/view-15249120.htm