基于机器视觉的3D物体识别与定位毕业论文

2021-04-13 20:55:53

摘要

物体识别与定位属于计算机视觉领域的研究范畴，当前在信息领域也是比较热门的研究方向。伴随着人们需求的不断增长，物体识别在安全、科技、经济方面逐渐起到举足轻重的作用，包括安防领域和交通监管部门也对这一技术的升级提出了迫切的要求，因此研究物体识别和定位对未来社会的发展具有非常重要的意义。深度神经网络的出现标志着以深度学习为新纪元的时代的来临，卷积神经网络作为深度学习方法之一，已经在图像识别领域取得了巨大成功。因此基于卷积神经网络的物体识别已然成为一个研究热点。

本论文重点阐述了基于YOLO目标识别算法的卷积神经网络模型，以Pycharm为开发平台，Python为开发语言，基于Tensorflow深度学习框架实现网络的构建，实现对图像中3D目标的识别分类和二维定位，结合深度图像完成三维的完整定位，并在RGB-D数据集上进行了多组实验测试，实验结果中整体数据集的识别率为93.2%，所用模型在识别性能和时间性能上都表现出了比较理想的效果。

关键词：目标识别；神经网络；深度图像；特征提取

Abstract

Object recognition and positioning belong to the field of computer vision research. Currently, it is also a hot research direction in the field of information. With the continuous growth of people's needs, object recognition has gradually played a decisive role in security, science and technology, and economy. Security areas and traffic supervision departments have also put forward urgent requirements for the upgrading of this technology. Therefore, research on object identification and positioning has been conducted. It is of great significance to the development of the future society. The appearance of a deep neural network marks the advent of an era of deep learning as a new era. Convolutional neural networks, as one of deep learning methods, have achieved great success in the field of image recognition. Therefore, object recognition based on convolutional neural networks has become a research hotspot.

This thesis focuses on the convolutional neural network model based on YOLO target recognition algorithm. It uses Pycharm as the development platform and Python as the development language. It builds the network based on Tensorflow deep learning framework and realizes the recognition and classification of 3D objects in images. Positioning, combined with depth images to complete the three-dimensional complete positioning, and multiple sets of experimental tests on RGB-D datasets, the overall data set recognition rate was 93.2% in the experimental results, the model used in both recognition performance and time performance A more ideal result.

Keywords: Object recognition；neural network；depth image；Feature extraction

绪论

1. 研究工作的背景

近年来，机器视觉以其非接触式、较宽的光谱响应范围、定位、测量和缺陷检测的优势，在军事目标识别、人脸识别、指纹识别、发票号码识别、农作物质量检测和医学图像检测等传统识模式识别应用领域得到了广泛的应用。对于一些高要求、高负荷性的重复性和智能型的工作，比如细微缺陷检测和零部件测量，人眼很难持续、稳定地去完成，但是依靠机器视觉技术可以将检测任务完成得更加高效和出色。在机器视觉中，图像采集设备大多制造工艺复杂，精确度高，价格昂贵，以Bumblebee2为例，该相机价格昂贵而且体积较大，然而，微软公司Kinect相机的问世，因其简单、价廉、方便，在三维重构、物体跟踪和姿态识别等方面有着日渐丰富的应用前景。

3D物体识别与定位在机器视觉范畴中的是一项重要研究内容，核心问题是找出图片中目标所在的正确位置并且决定这些目标的所属类别，在计算机视觉领域内这是最具挑战性的问题之一，在智能监控、行为识别、人流检测等诸多领域扮演着重要角色。人工智能方兴未艾，深度学习的理论和应用已成为热点问题。与传统目标检测方法相比，将深度学习用于目标检测模型逐渐成为研究趋势。

传统意义上的目标识别方法一般可以划分为如下三个阶段。首先需要在给定的图像上框定出一些候选区域，对这些候选区域进行特征提取，接着使用预先训练好的分类器进行分类；第二步常常需要人工来获取原始输入中与目标有关的表达信息，并进一步在提取的跟目标有关的特征信息上进行分类器学习，如SIFT^[1]、HoG^[2]等经典方法。然而，人工特征提取方法存在诸多局限，对于不同的目标或者同一目标的不同形态，需要设计者仔细考虑如何去提取图片的特征，模型的最终识别效果也受制于设计者的经验。另一方面，传统检测模型将特征提取和分类训练分离，这就会导致如果在特征描述中人工提取的特征不足以描述一个目标，那么一些丢失的有用信息就再也无法从分类训练中恢复。这些缺点阻碍了传统检测模型获得更加符合目标特性的特征描述。

1. 研究的目的及意义

在机器学习领域中深度学习是一个全新的研究方向，它的核心动机是通过建立多层的神经网络来分析学习数据。深度学习追求模拟人脑的机制来解释图像，声音和文本数据。在过去的研究工作中，研究者们提出了许多深度学习算法，并且这些算法在图像识别领域已经被成功应用并取得了显著的效果。传统的基于RGB图像或者灰度图像的物体识别研究，虽然也在一定程度上取得了不错的研究成果但是由于RGB图像和灰度图像包含信息的局限性等限制，已经逐渐不能满足当代的工业应用中对于物体识别准确率的高要求。

本论文研究的理论意义在于使用卷积神经网络这种前沿性的方法来研究物体识别领域，一方面可以研究卷积神经网络在物体识别上对比传统方法的优势和潜力，另一方面可以观察将卷及神经网络能够与哪些技术或方法结合，来提升识别与定位的效果，从而推动物体识别领域的发展。

1. 国内外发展现状

在计算机视觉领域物体识别的范畴包括在一张图像甚至一组视频序列中找到给定的物体，并且能用一些物体框框定出物体的具体位置。物体识别的主要步骤包括特征提取、特征处理以及物体分类。特征提取这一块是物体识别的关键技术，指的是在识别过程的前期将给定图像中隐含的特征给提取出来，因为特征提取的作用在于尽可能多地提取图像中的特征信息。特征处理是因为先前特征提取后的特征比较粗糙，往往会出现噪声或冗余的信息，所以需要一个方法对之前提取的特征进行提纯和精炼，因此就出现了特征处理，包括特征编码、特征汇聚等处理方式。物体分类过程是将前面精炼过的特征当做图像的表达来训练分类器，然后用分类器对新的图像进行分类判别。

在传统的目标检测方法研究领域，一些研究者使用手动提取特征的方式从图像中提取多种多样的特征，如SIFT 特征、三维点云特征^[3]和其他一些类似颜色和几何^[4,5]的特征。这些手动特征提取方法在特定的识别任务中取得了一定的效果，但仍然存在关键性的局限，第一是这些方法所提取的特征通常只包括原始数据特征的一部分，许多其他包含有效信息的特征在特征提取过程中已经被人为地忽略掉了，例如SIFT方法用一对水平和垂直的梯度过滤器来提取物体的边缘信息，而完全忽略了色彩信息。其次，手动特征的提取有一定难度，适用性比较低。

近年来，Depth信息获取技术飞速发展，微软公司2010年推出的Kinect相机价格适中，并且能够同时获取物体的RGB图像和深度图像，使得利用kinect相机获取的Depth信息来解决3D目标识别问题成为一个新的研究热点。部分研究者们提出了直接从Depth图中提取目标的3D特征来实现3D目标识别。Rusu^[6]和Steder^[7]等人分别利用视角特征直方图和法向对齐径向特征来表征目标物体，实现3D目标识别，Shah^[8]等人将3D向量场的散度作为表征局部表面特征描述子进行3D目标识别，由于该类算法是先通过Depth图像获得目标的3D点云模型，再由3D点云模型提取目标的3D特征描述子来完成目标识别的，在样本类内差异大、类间相似度高的情况下，3D点云模型并不能很好的反应出这些样本的差距。且该类方法计算复杂度高，运算速度慢，不利于进行大样本的识别任务。

随着过去十年间用于图像识别的标准数据库的公开，物体识别得到了飞速发展，一些基于深度学习的无监督学习算法相继被提出，其中比较有代表性的有去噪自编码DA^[9]、深度玻尔兹曼机DBM^[10]、卷积深度信念网络^[11]、K类均值聚类特征学习算法^[12]和分层匹配追踪算法^[13]等。这些算法逐层地提取特征，并且被广泛应用于手写数字识别、人脸识别、小图片识别、物体识别、事件识别和场景识别等任务中，取得了一定的效果。在引入卷积神经网络之前，DPM^[14]为目标识别的经典算法，其核心思想是把HoG特征和SVM分类器结合。卷积神经网络实现了传统意义上的人工神经网络与卷积运算相结合，可以识别各种各样的目标模式并对一定程度的扭曲和形变有良好的鲁棒性。同时，由于卷积神经网络在架构上使用了权值共享和稀疏连接的方式，使得传统神经网络的参数个数得到了极大的减少。因此很多基于卷积神经网络的检测方法在各种目标识别中都获得了不错的结果。这其中，2014年Girshick等提出的RCNN算法^[15]首次在目标识别这一领域引入CNN，检测效果远胜于传统目标检测算法。在RCNN出现后比较典型的有SPPNet^[16]，Fast R-CNN^[17]，Faster R-CNN^[18]，R-FCN^[19]，FPN^[20]，Mask R-CNN^[21]等，这些算法从原理上可以分为两种：基于候选区域的深度学习目标检测算法，以及以回归方法为基础的的深度学习目标检测算法。

图1.1 目标识别算法分类

以候选区域为基础的深度学习目标识别算法有效解决了传统目标识别方法存在的两个问题：一是区域选择策略没有针对性，窗口冗余，时间复杂度高；二是人为手工设计的特征对于实际目标多样性的变化难以做到出色的鲁棒性。常用以产生候选区域的算法有Selective Search^[22]和Edge Boxes^[23]。在特征提取方面，现在目标检测领域普遍采用卷积神经网络进行特征提取替代人工特征提取。经常用到的分类模型有AlexNet^[24]，VGG^[25]，GoogleNet^[26]，ResNet^[27]等。

基于回归方法的深度学习目标识别算法主要有YOLO，SSD。目前而言，Faster R-CNN是深度学习目标识别领域最核心的一个算法框架。该算法框架提出产生候选区域的RPN结构和目标边框位置的anchor映射机制。这些创新点刺激着后续源源不断的一系列研究工作，但是这些基于候选区域的大部分算法有一些不足：a)这些算法框架采用或者借鉴了已有图像分类模型如VGG，ResNet等，这些模型训练产生的参数巨大，模型训练的耗时也非常多；b)也因此，Faster R-CNN系列算法对实验硬件设备有很高的要求。如R-FCN、Mask R-CNN算法网络模型需要8块GPU训练，一般的实验室没有这个条件。而YOLO的Darknet模型，只要有一个显存大于4G的显卡的笔记本就可以在数据集上进行监测模型训练，实验环境简单。

1. 本文主要内容及组织结构

本文主要研究了YOLO卷积神经网络在3D物体识别和定位领域方向的应用，首先对时下物体识别和卷积神经网络CNN的现状和发展历程进行了总结和归纳，并对物体识别领域的基础技术思想有条理地进行了汇总和概括。之后对YOLO目标识别算法进行了详细的说明和分析，接着使用RGB-D数据集对所使用的卷积神经网络进行实验测试，并从识别性能和时间性能的角度对实验数据进行分析和归纳，使网络的性能表现一目了然，也更有说服力。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

基于机器视觉的3D物体识别与定位毕业论文

绪论

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于机器视觉的3D物体识别与定位毕业论文

绪论

您可能感兴趣的文章

最新文档

推荐栏目