基于深度学习的实例分割模型的设计与实现文献综述

2020-04-15 15:32:05

1．目的及意义

1.1 研究背景及意义

近些年，随着相关技术的逐年进步，人们进步重拾起机器学习（Machine Learning）这门多领域交叉学科。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。同时，机器学习是人工智能（Artificial Intelligence）的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

机器学习是人工智能研究较为年轻的分支，它的发展过程大致可以分为4个时期：①兴起时期，从20世纪50年代中叶到60年代中叶；②冷静时期，从20世纪60年代中叶到70年代中叶；③复兴时期，从20世纪70年代中叶到80年代中叶；④新时期，从1986年至今。

而深度学习（Deep Learning）作为机器学习的一个分支，是机器研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释如图像、声音、文本等数据。由于深度学习近几年在处理图像、视频、语音和音频方面带来了较大的突破，是目前人们研究的热点。

同机器学习方法一样，深度学习方法也有监督学习与无监督学习之分，不同的学习框架下建立的学习模型很是不同。例如，卷积神经网络（Convolutional Neural Networks，即CNNs）就是一种深度的监督学习下的机器学习模型，而深度置信网（Deep Belief Nets，简称DBNs）就是一种无监督学习下的机器学习模型。

从2017年开始，深度学习在计算机视觉（Computer Vision，即CV）领域有了新的发展。在深度学习关于CV的研究中，出现了如图像分类（诸如LeNet，AlexNet，VGG-16等等）、图像分割（如FCN等）以及目标检测（诸如R-CNN，Fast R-CNN，Faster R-CNN，YOLO等）这样的任务。而上述的任务可以通过同一个模型来完成，即实例分割（Instance Segmentation）。实例分割是一个包含了目标检测（不需要目标框）、图像分类以及图像分割的一个十分综合问题。而本文的主要目的是采用深度学习框架下的CNN模型来设计并实现一个简单的实例分割模型。

1.2 国内外研究现状

深度学习是近些年比较热门的学科。在2010年以前，每年的相关论文数量维持在50篇左右，而在2010年以后，相关论文的数量逐年增长，并在2018年国内发表了近5500篇与深度学习相关的论文。

关于实例分割的问题，经常会出现在一些国际会议上，如ICCV（International Conference on Computer Vision，即国际计算机视觉大会）以及CVPR（Conference on Computer Vision and PatternRecognition，即国际计算机视觉与模式识别会议）。在ICCV2017上，一篇关于实例分割的论文[3]一举夺得那场会议的最佳论文奖，同时Mask R-CNN也作为顶尖实例分割模型出现在人们的视野里。而在CPVR2018上，一种优于MaskR-CNN的实例分割框架PANet[2]吸引了人们的眼球。PANet对Mask R-CNN进行了优化，并在COCO2017实例分割挑战赛的实例分割任务中取得了第一名的成绩。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码