任意方向旋转字符识别算法研究毕业论文

2021-11-05 19:05:12

摘要

卷积神经网络在学习有效的图像表示方面具有良好的能力，然而它在识别一些有着重大的变形的图像方面的能力还是有限的，比如像旋转、缩放等变形操作。本文构建出了一种新的架构层次的卷积神经网络模型来解决这些问题，以实现该网络模型对旋转以及缩放图像的识别分类能力。我们利用了方向旋转网络中的主动旋转过滤器，将该过滤器作为网络模型中卷积层的过滤器，并且在池化层使用了重叠池化和通道自注意力模块。主动旋转过滤器可以在卷积过程中进行主动旋转，针对不同的旋转过的图像进行特征提取，产生旋转不变的特征的同时没有增加模型的参数数量。通道自注意力模块能够整合相关功能，增加重叠池化后的不同分支形成的特征图中的通道之间的相互依赖。我们使用MNIST手写数据集和它的变化版本的数据集来评估我们的网络模型，并使用CIFAR-10数据集来展示它在表示旋转和缩放图像方面的有效性。

关键词：卷积神经网络；主动旋转过滤器；重叠池化；通道自注意力机制

Abstract

The convolutional neural network has a good ability to learn effective image representation, but its ability to identify some images with significant deformation is limited, such as rotation, scaling and other deformation operations. In this paper, a new structure-level convolutional neural network model is constructed to solve these problems, so as to realize the recognition and classification ability of the network model for rotating and scaling images. We use the active rotation filter in the directional rotation network as the filter of the convolutional layer in the network model, and use overlapping pooling and channel self-attention modules in the pooling layer. Active rotating filter can carry out active rotation in the convolution process, and feature extraction can be carried out for different rotated images, so as to produce features with invariant rotation without increasing the number of parameters of the model. The channel self-attention module can integrate related functions and increase the interdependence between channels in the feature map formed by different branches after overlapping pooling. We evaluated our network model using the MNIST handwritten dataset and its variant version, and used the cifar-10 data set to demonstrate its effectiveness in representing rotated and scaled images.

Key Words：Convolutional neural networks；active rotating filter；overlapping pooling；channel self-attention

摘要 I

Abstract II

第1章绪论 1

1.1 研究背景及意义 2

1.2 国内外研究现状 2

1.3 本文研究内容与结构安排 2

第2章字符识别算法设计 2

2.1 相关工作 2

2.1.1 卷积神经网络的结构 2

2.1.2 激活函数 2

2.1.3 重叠池化 3

2.1.4 Dropout、normalization 3

2.1.5 注意力机制 4

2.2 主动旋转过滤器 4

2.3 通道自注意力模块 5

2.4 带有自注意力模块的旋转不变性的卷积神经网络 6

2.5 本章小结 8

第3章实验与分析 10

3.1 MNIST和它的旋转版本 10

3.2 MNIST-rot-12k数据集 11

3.3 自然场景图片分类 12

3.4 本章小结 12

第4章总结 14

参考文献 15

致谢 18

绪论

研究背景及意义

在现如今信息发达的生活中，图像在信息传递过程中有着相当重要的地位，相较于传统的文本信息，图片能够传达更多的信息内容。随着移动设备的广泛普及以及网络技术的快速发展，人们通过图片进行信息的传递已经不存在技术上的难题。同时随着各种网络软件的不断发展和完善，人们有了更多的兴趣去使用网络软件进行信息的获取与传递。从每年的各种相关统计资料中都能够得出图片与视频这类信息的使用越来越频繁这一结论。于是，互联网上的图片数据日益繁多，对这些图片中的文本数据的研究能够为自然语言处理以及数据分析这类研究领域提供帮助，从而能够使得计算机能够理解海量的图片文本信息。而图像中的文字信息，从很大程度上决定了图片所传递的信息，为了能够理解图像和分析图像，对图像文字信息的识别研究具有十分重要的意义。

字符识别技术是模式识别中的主要内容之一，近年来，随着字符图像识别技术的发展，对于文档图像信息这类有着规范工整的文本信息格式而言，现如今的光学字符识别(Optical Character Recognition, OCR)^[1][2]技术已经有着很高的识别效率与准确率了，一般来讲，OCR发挥作用主要是通过物理光学设备对图像中的文本信息进行识别并进行转换，我们生活中的很多智能设备都能够利用这项技术实现图像字符识别的功能，然而这些字符需要处于相对简单的背景环境中才能够被准确识别，往往这些字符的整体方向易于分析并且背景和字符本身对比度高易于区分（一般背景为白色，字体为黑色）。然而，随着智能设备的流行，人们越来越倾向于使用图像来分享以及记录生活，其中就不乏包含很多文本信息的图像，如路牌、商店名称等等，同时由于人的视角、对设备操作的水平以及对图像内容特殊的追求不同，导致了这些图像中的字符不可能像文档图像那样水平且工整，使得现有的OCR在这类图像上的识别效果不太理想。所以有必要针对角度不同以及尺度不同的字符识别算法进行研究。

当前很多字符图像识别算法是以卷积神经网络为基础的，不同于传统的OCR，这是一种基于目标识别的方法^[3]，这种方法是对字符的特征进行提取，然后再进行分析得到分类结果。卷积神经网络就是一种基于目标识别的方法，因为这种网络模型不需要对图像提前进行复杂的预处理，可以直接使用输入的图像，已经越来越广泛的应用于图像识别分类这种模式识别分类的研究之中了。卷积神经网络最早提出在上个世纪60年代，当时Hubel和Wiesel在研究猫大脑皮层用于局部敏感性和方向选择的神经元时发现，它们独特的神经网络结构可以一定程度地降低反馈神经网络的复杂性，从而进一步提出了卷积神经网络（简称CNN）。最早地利用卷积神经网络实现的网络模型是K.Fukushima在上个世纪90年代初提出的新识别机。从那时起，基于卷积神经网络的网络模型日益增多，相关的研究也越来越得到重视。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

任意方向旋转字符识别算法研究毕业论文

绪论

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

任意方向旋转字符识别算法研究毕业论文

绪论

您可能感兴趣的文章

最新文档

推荐栏目