基于深度学习的影像分类的设计与实现毕业论文

2020-02-16 18:06:44

摘要

深度学习（DL，Deep Learning）是机器学习（ML，Machine Learning）的一个重要方法和研究方向，属于人工智能（AI，Artificial Intelligence）领域的重要分支。卷积神经网络（CNN，Convolutional Neural Network）作为深度学习模型的代表，是模拟视觉系统层次化的工作模式，在人工神经网络的基础上构建具有层次化结构的人工网络模型。其局部感知、层次结构化等特点在处理图像识别问题上具有巨大优势，在现代模式识别领域获得了广泛的应用。本文在整理与总结国内外深度学习的基本理论成果与在工程上的应用现状，并在对卷积神经网络结构分析的基础上，结合TensorFlow深度学习框架，开发了一个图像识别系统，以工程应用为背景对其理论成果进行研究。

论文主要进行了以下几项工作：整理国内外深度学习的研究成果，并对深度学习的背景与应用进行总结；分析卷积神经网络的结构与基本原理，并对理解网络模型所需的基本算法进行了介绍；设计本文的图像识别系统，并以经典CNN网络结构为基础设计基于本文的卷积神经网络结构；进行数据集的准备、深度学习框架的搭建及本文模型的训练工作，然后实现本文的图像识别系统。

通过以上工作，本文从工程项目应用的角度验证了深度学习在图像识别领域的优势。

关键词：深度学习；卷积神经网络；图像识别；TensorFlow

Abstract

Deep Learning(DL) is an important method and research direction of machine

learning(ML),which is an important branch of Artificial Intelligence(AI).Convolutional Neural Network(CNN) is a hierarchical model to simulate the visual system which based

on artificial neural network to build a hierarchical structure of the artificial neural

network model.It has a great advantage in processing image recognition

problems,widely used in the field of modern pattern recognition.This paper sorts out and

summarizes the basic theory of deep learning at home and abroad as well as its

achievements in engineering application.After analyzing the structure of CNN,an image

recognition system was developed based on TensorFlow in the purpose of study DL in

engineering fields.

In this paper,the following works is done:Sort out the research results at home and abroad about DL,and analyze the background and application of deep learning;Analyze the structure and basic principle of CNN,also introduce the basic algorithm to understand the network;Design the CNN model in image recognition which based on typical CNN structures;Prepare training data set,construct DL framework,train the CNN model.

Based on above works,this paper verifies the advantages of deep learning in the field of Image Recognition from the view of project applications.

Key Words：Deep Learning；CNN；Image Recognition；TensorFlow

第1章绪论 2

1.1 课题背景与研究意义 2

1.2 国内外研究现状 3

1.3 本文研究目标与内容结构 4

1.3.1 研究目标 4

1.3.2 内容结构 5

第2章卷积神经网络 5

2.1 卷积神经网络概述 5

2.2卷积神经网络结构 6

2.2.1 数据输入层（Input layer） 6

2.2.2 卷积计算层（CONV layer） 7

2.2.3 ReLU激励层（ReLU layer） 8

2.2.4池化层（Pooling layer） 9

2.2.5全连接层（FC layer） 9

2.3深度卷积网络 10

2.4损失函数、成本函数、激励函数以及梯度下降法 11

2.5本文采用的卷积神经网络-LeNet-5 12

第3章图像识别系统的实现 13

3.1 TensorFlow的工作原理 14

3.2 交通标志识别系统的设计 15

3.2.1 需求分析 15

3.2.2 可行性分析 15

3.2.3 系统详细设计 15

3.3交通标志识别系统的实现 16

3.3.1 数据集的准备工作 16

3.3.2 数据集的加载和初步处理 19

3.3.3 网络的训练 20

3.3.4 网络的预测和识别准确率 21

第4章总结与展望 22

4.1 总结 22

4.2 展望 23

参考文献 24

致谢 26

第1章绪论

本章主要介绍了人工智能的概念、深度学习在图像识别领域的发展历程与现状，并对本文开发的基于深度学习的图像识别系统的目标与意义做了阐述。

1.1 课题背景与研究意义

人工智能(Artificial Intelligence，AI)是计算机模仿人类进行有智能的行动，研究像人类一样完成图像识别^[7]、语音处理、自动驾驶等智能任务方法的学科。1956年达特茅斯会议的举行，确定了人工智能的名称和任务，标志着人工智能学科的正式诞生。

深度学习^[2]作为AI的重要分支，是受到生物学和神经学领域在动物和人脑视觉神经领域的新发现的启发，模拟视觉系统的层次化的工作模式，利用人工神经网络模拟人脑计算，对数据进行特征分析与任务模型训练，解决类似人类的认识与决策问题的网络。自人工神经网络(neural network，NN)等概念源自二十世纪四十年代，在八十年代之后，反向传播算法(back propagation，BP)被成功应用在神经网络之中，至2006年，图形处理器(Graphics Processing Unit，GPU)被用于加速卷积神经网络的训练过程。由此，掀起了一个新的神经网络研究热潮。

深度学习在计算机学科的诸多领域中，尤其是在计算机视觉、自然语言处理等领域，具有巨大优势，己成为最重要的技术。2012年，Geoffrey Hinton^[24]的研究小组采用深度学习赢得了ImageNet图像分类比赛，并将top5的错误率降到15．315％，在人工智能界引起了较大轰动，也掀起了深度学习的浪潮。同年，Andrew Ng领导的“Google Brain”项目^[17]将每1 6000台计算机连接形成巨大的网络，在观看YouTube网站视频后，计算机成功地从图片中识别出猫，宣示其完美地模仿了人类智能活动。

深度学习在模式识别^[5]领域取得一个又一个的突破，使得人工智能技术的应用日趋实际。将AI由仅仅进行理论的研究转化为实际应用，与实际需求相结合应用于实际项目中十分有意义。

本文在总结深度学习模型理论研究成果与其在图像识别领域的应用现状的基础下，开发一个基于深度学习的交通标志识别系统，以实际工程项目为背景来验证深度学习理论在图像识别领域的巨大优势，这对无人驾驶领域以及将深度学习理论转化为实际应用的研究都具有重大意义。

1.2 国内外研究现状

影像分类基于图像识别，图像识别也就是图像的模式识别，是模式识别技术在图像领域的具体应用，是对输入的图像信息建立图像识别模型，分析并提取图像特征，然后建立分类器，根据图像的特征进行分类识别的一种技术。图像识别的主要目的是对图像、图片、景物、文字等信息经过处理和识别，来解决计算机和外部环境的直接通信过程。

图像识别的发展经历了文字识别、数字图像处理与识别、物体识别三个阶段，简而言之，就是从简单到复杂的识别过程，而计算机处理速度的提升以及相应算法的改进为此提供了基础和便利，图像识别只要围绕“分类”这一共性来进行研究，根据一定的标准，把具有同一种属性的对象归为一类，具有另一共同属性的对象归为另一类，如对于阿拉伯数字需要分为10类，对于英文字母需要分为26类，对于数千个汉字就要分为数千类。另外，不同的分类标准将得到不同的分类结果，如按颜色分，按形状分，按其他属性分。图像识别主要由数据获取、数据处理以及判别分类三个环节组成。由于卷积神经网络在图像识别领域的天生优势和成功表现，使得深度学习在图像识别领域得到长久的研究，并在计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大的成功。

1998年，LeCun等人构建了包含7层的卷积神经网络模型LeNet-5^[11]，用于对手写数字图像进行分类。该模型被认为是最早的图像识别模型和通用的图像识别方法之一，其采用卷积层、子采样池化层和全连接层为网络结构，在基于小规模数据集的手写数字识别任务中取得了不错的效果。由于计算机硬件性能在当时无法进行大规模数据训练的限制，故在大规模数据问题上，CNN自提出后便被SVM所取代，处于发展低谷时期。

随着大数据技术的发展和计算机硬件性能的提升，尤其是2005年Dave Steinkraus等人在机器学习训练中使用GPU技术进行加速，使得卷积神经网络又迎来新的发展。2012年Alex等人构建AlexNet卷积神经网络^[13]，凭借GPU加速训练，在ILSVRC-2012大赛中以误差率15.3%的成绩夺得冠军，使得卷积神经网络的发展前进了一大步，也标志着深度学习算法代替了传统特征提取方法。

2012年，Geoffrey Hinton的研究小组采用深度学习赢得了ImageNet图像分类^[14]比赛，并将top5的错误率降到15．315％，在人工智能界引起了较大轰动，也掀起了深度学习的浪潮。同年，Andrew Ng领导的“Google Brain”项目将每1 6000台计算机连接形成巨大的网络，在观看YouTube网站视频后，计算机成功地从图片中识别出猫，宣示其完美地模仿了人类智能活动。2013年百度成立了Institue of Deep Learning(IDL),微软、谷歌等拥有大数据的高科技公司投入大量的资源进行深度学习技术的研发，多伦多大学的Geoffrey E Hinton与微软合作，斯坦福大学的Andrew Y.Ng和谷歌合作。深度学习在学术界和工业界受到了广泛的关注和重视，被《麻省理工学院技术评论》列为2013年十大突破性技术之首^[1]。

在ImageNet1000任务中，对于1000个类别的识别，随着深度学习的研究进展，其识别效果分别经历了72%、85%、89%、93%等阶段截止2015年1月，由微软亚太研究院实现的最好效果为96.06%。在SVHN街景门牌号识别任务中，Google通过11层的神经网络对门牌号实现了97.84%的正确率，这个系统已经帮助Google从街景中分析出全球近1亿个门牌号。

2015年5月，Nature为纪念人工智能60周年开辟了“人工智能与机器人”专题，回顾了过去的研究历程与当今的研究热点，其中深度学习作为一个热点被加以介绍。目前深度学习在国内外都受到广泛关注，新的深度学习算法源源不断地被提出，在不久的将来，深度学习会取得更多的成功。

1.3 本文研究目标与内容结构

基于深度学习的理论研究，明确本文的研究目标和研究步骤，并对本文文章内容与组织结构做了详细安排。

1.3.1 研究目标

本文基于对现有的应用于图像识别领域的卷积神经网络的总结，做了如下研究工作：

对基本深度学习基础理论与知识进行总结和研究，对基于图像识别的卷积神经网络的网络结构和特点进行分析和论述。
设计本文的神经网络，探究本文设计的神经网络在开源深度学习框架上的部署、训练的方法和步骤。
开发基于深度学习的图像识别系统，对深度学习模型进行训练，实现深度学习算法在工程领域的应用。

1.3.2 内容结构

本文共分为4章，具体内容安排如下：

第一章：绪论。主要介绍了人工智能背景下图像识别的意义，并介绍了深度学习的发展历程、卷积神经网络的发展历程以及深度学习在图像识别领域的研究和应用现状。

第二章：卷积神经网络。主要介绍卷积神经网络的基本知识以及本文所开发系统采用的卷积神经网络模型LeNet-5。

第三章：图像识别系统的实现。对数据集的准备、本文系统网络在TensorFlow上的搭建与训练过程做了详细的介绍，并对网络训练结果做出验证。

第四章：总结与展望。概括了本文所做的研究，同时分析总结了本文研究的不足。

----------------------------------------------------------------------------------------------------------

第2章卷积神经网络

卷积神经网络是受到Hubel和Wiesel提出的基于猫视觉皮层的结构模型的启发，将人工神经网络与深度学习方法相结合的网络结构。卷积神经网络使用一种基于梯度下降的改进反向传播算法来训练网络中的参数，实现深度学习的方法。本章主要论述卷积神经网络的网络结构和基本单元。

2.1 卷积神经网络概述

受到Hubel和Wiesel关于动物视觉皮层细胞负责检测光学信号的发现地启发，1980年Kunihiko Fukushima提出了被认为是卷积神经网络前身的新认知机（Neocohnition）。Fukushima认为一组参数相同的神经元在前一个神经网络层的位置之间具有数据平移保持不变的特性（Translational Invariance)。1989年，Yann LeCun将反向传播算法（BP）应用于人工神经网络的训练过程中，并正式提出一种新的神经网络：卷积神经网络（Convolutional Neural Networks,CNN）^[25]。

卷积神经网络通过对训练样本数据在空间上特征挖掘与提取，来减少网络中样本参数的数量，降低网络输入数据的维度，达到提升正向传播与反向传播效率的目的。在卷积神经网络中，训练样本不同的局部特征被提取，作为输入参数通过网络正向传播，每一层神经网络层都会使用权值来过滤正向传播的数据信息，随着网络层数的增加，样本特征的相关性也在不断地被挖掘。经过计算与样本结果对比的误差，从而进行反向传播，更新每一层网络参数，再次迭代提取输入训练样本的局部特征来训练神经网络结构。每一层特征的提取都会挖掘样本数据的不同局部特征间的相关性，因此CNN十分适合图像的局部特征的提取与处理^[6]。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。