DeepLab: 基于深度卷积网络的语义图像分割,空洞卷积,并完全连接条件随机场外文翻译资料

2022-08-08 19:30:01

英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

DeepLab: 基于深度卷积网络的语义图像分割,空洞卷积,并完全连接条件随机场

陈良杰，George Papandreou，IEEE高级会员，Iasonas Kokkinos, IEEE会员，Kevin Murphy，Alan L. Yuille, IEEE会员

摘要—在这项工作中，我们解决了语义图像分割与深度学习的任务，并作出了三个实验表明具有实质性价值的主要贡献。首先，我们强调卷积与上采样滤波器，或“空洞卷积”，作为密集预测任务的一个强大的工具。空洞卷积允许我们明确地控制在深度卷积神经网络中计算特征响应的分辨率。它还允许我们在不增加参数数量或计算量的情况下，有效地扩大滤波器的视野，以合并更大的上下文。其次，我们提出了一种基于多尺度稳健分割的空间金字塔汇聚算法。ASPP使用多个采样率的滤波器和有效的视场来探测传入的卷积特征层，从而在多个尺度上捕获对象和图像上下文。第三，我们结合DCNNs和概率图形模型的方法改进了对象边界的定位。DCNNs中常用的最大池和下采样的组合实现了不变性，但对定位精度有一定的影响。我们通过将最终DCNN层的响应与完全连接的条件随机场(CRF)相结合来克服这一问题，该方法通过定性和定量的方式来提高定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中设置了新的技术水平，在测试集中达到了79.7%的mIOU，并在其他三个数据集上推进了结果:PASCAL-Context、PASCAL-Person-Part和Cityscapes。我们所有的代码都在网上公开。

索引项-卷积神经网络，语义分割，空洞卷积，条件随机场

1 介绍

深度卷积神经网络(DCNNs)[1] 将计算机视觉系统的性能推向了一个高峰，包括图像分类[2]、[3]、[4]、[5]，[6]和对象检测[7],[8],[9],[10],[11],[12],DCNNs在这些地方，以端到端的方式进行训练，得到的结果明显好于依赖手工特征的系统。这一成功的关键是DCNNs对本地图像转换的内置不变性，这使他们能够学习日益抽象的数据表示[13]。这种不变性显然是分类任务所需要的，但可能会妨碍语义分割等密集预测任务，因为在这些任务中不需要抽象空间信息。

我们特别考虑了DCNNs在语义图像分割中的三个应用挑战:(1)降低了特征分辨率;(2)多尺度对象的存在;(3)由于DCNN的不变性而降低了定位精度。接下来，我们将讨论这些挑战以及我们在DeepLab系统中克服这些挑战的方法。

第一个挑战是在原设计用于图像分类[2]、[4]、[5]的DCNNs的连续层上重复组合最大池和下行采样(“大步”)。当DCNN以全卷积方式[14]使用时，这将导致空间分辨率显著降低的地形图。为了克服这一障碍并有效地生成更密集的特征图，我们从DCNNs的最后几个最大池层中删除了向下采样操作符，而在随后的卷积层中对滤波器进行向上采样，从而得到了采样率更高的特征图。向上采样相当于在非零滤嘴之间插入一个孔(法语为trous)。(法语中为“trous”)。这种技术在信号处理领域有着悠久的历史，最初是为了高效计算非抽取小波变换而发展起来的，也被称为“算法”[15]。我们用空洞卷积这个术语来表示上采样滤波器的卷积。在此之前，[3]、[6]、[16]已经在DCNNs的环境中使用过不同的版本。在实际应用中，我们通过卷积的组合来恢复全分辨率的特征图，该算法能更密集地计算特征图，然后根据原始图像大小对特征进行简单的双线性插值。该方案提供了一种简单但功能强大的替代方案，可用于密集预测任务中的反卷层[13]、[14]。与常规的大滤波器卷积相比，空洞卷积可以在不增加参数数量和计算量的情况下有效的扩大滤波器的视场。

第二个挑战是由多尺度物体的存在引起的。处理此问题的标准方法是将相同图像呈现给DCNN重新分级的版本，然后聚合[6]、[17]、[18]的特性或评分地图。我们证明了这种方法确实提高了系统的性能，但代价是在所有DCNN层上为输入图像的多个缩放版本计算特征响应。相反，在空间金字塔汇聚[19]，[20]的驱动下，我们提出了一个计算效率的方案，在卷积之前以多个速率重新采样给定的特征层。这相当于使用多个具有互补的有效视场的滤波器探测原始图像，从而在多个尺度上捕获对象和有用的图像上下文。我们没有实际的重新采样特性，而是使用具有不同采样率的多个并行的卷积层来有效地实现这种映射;我们称之为“无张力空间金字塔池”(ASPP)。

第三个挑战与一个事实有关，即一个以对象为中心的分类器需要空间转换的不变性，这从本质上限制了DCNN的空间准确性。缓解这一问题的一种方法是在计算最终分割结果[14]、[21]时，使用跳层从多个网络层中提取“超列”特征。我们的工作探索了一种我们认为非常有效的替代方法。特别地，我们通过使用一个全连接的条件随机场(CRF)[22]来增强我们的模型捕捉精细细节的能力。CRFs将多路分类器计算的类分数与像素与边缘[23]、[24]或超像素[25]的局部交互捕获的低层次信息相结合，广泛应用于语义分割中。虽然提出了日益复杂的作品模型层次依赖[26],[27],[28]和/或高阶相关性段[29],[30],[31],[32],[33], 我们使用由[22]提出的完全连接的成对CRF来实现它的高效计算，并能够捕获精细的边缘细节，同时也满足了长期的依赖关系。在[22]中展示了该模型，以提高基于增强的像素级分类器的性能。在这项工作中，我们证明了CRF与基于DCNN的像素级分类器相结合可以得到最先进的结果。

图1 模型说明。深度卷积神经网络，如VGG-16或ResNet-101，以完全卷积的方式使用，使用空洞卷积来减少信号下降采样的程度(从32x下降8x)。双线性插值阶段将特征映射扩展到原始图像分辨率。然后使用一个完全连接的CRF来细化分割结果并更好地捕获对象边界。

图1给出了所提出的DeepLab模型的高层示意图。在图像分类任务中训练的深度卷积神经网络(VGG-16[4]或本工作中的ResNet-101[11])通过(1)将所有全连通层转换为卷积层(即，全卷积网络[14])和(2)通过卷积层增加特征分辨率，使得我们可以每8个像素计算一次特征响应，而不是在原来的网络中每32个像素计算一次。然后，我们使用双线性插值，以8倍的上采样的分数地图，以达到原来的图像分辨率，产生的输入到一个完全连接的CRF[22]，细化这些监管结果。

从实用的角度来看，我们的DeepLab系统的三个主要优势是:(1)速度:通过空洞卷积，我们的DCNN在NVidia Titan X GPU上以8 FPS的速度运行，而对于完全连接的CRF的平均场推断需要在CPU上0.5秒。(2)准确性:我们在几个具有挑战性的数据集上获得了最新的结果，包括PASCAL VOC 2012语义分割基准[34]、PASCAL-Context[35]、PASCAL- Person-Part[36]和Cityscapes[37]。(3)简单性:我们的系统是由两个非常成熟的模块级联而成，DCNNs和CRFs。

我们在本文中介绍的更新的DeepLab系统与我们在原始会议出版物[38]中报告的第一个版本相比，有几个改进之处。我们的新版本可以更好地分割对象在多个尺度，通过多尺度输入处理[17]，[39]，[40]或拟议的ASPP。我们采用最先进的ResNet[11]图像分类DCNN构建了DeepLab的残差net变体，与基于VGG-16[4]的原始模型相比，获得了更好的语义分割性能。最后，我们对多个模型变量进行了更全面的实验评估，不仅在PASCAL VOC 2012基准测试上，还在其他具有挑战性的任务上报告了最新的结果。我们通过扩展Caffe框架[41]实现了所建议的方法。我们在一个配套的web站点http://liangchiehchen.com/projects/deeplab.html上共享代码和模型。

2 相关工作

在过去的十年中，大多数成功的语义分割系统都依赖于与平面分类器相结合的手工特征，如增强[24]、[42]、随机森林[43]或支持向量机[44]。通过整合来自上下文[45]和结构化预测技术[22]、[26]、[27]、[46]的更丰富的信息，已经实现了实质性的改进，但是这些系统的性能总是受到这些特性的有限表达能力的影响。近年来，深度学习在图像分类中的突破迅速转移到语义分割任务上。由于这个任务涉及到分割和分类，一个中心问题是如何结合这两个任务。

第一类基于DCNN的语义分类系统通常采用自底向上的级联图像分割，然后是基于DCNN的区域分类。例如，[47]提供的边界框建议和掩蔽区域，[48]在[7]和[49]中用作DCNN的输入，将形状信息合并到分类过程中。类似地，[50]的作者依赖于超像素表示。尽管这些方法可以从良好的分割所提供的清晰边界中获益，但它们也无法从任何错误中恢复过来。

第二个系列的工作依赖于使用卷积计算的DCNN特征进行密集图像标记，并将它们与独立获得的分段相结合。首先是[39]在多个图像分辨率下应用DCNNs，然后利用分割树对预测结果进行平滑处理。最近，[21]提出使用跳跃层并将DCNNs中计算出的中间特征映射连接起来进行像素分类。此外，[51]建议将中间的特征图按区域进行合并。这些工作仍然使用从DCNN分类器的结果解耦的分割算法，因此冒着过早决定的风险。

第三系列作品使用DCNNs直接提供密集的类目级像素标签，这使得完全抛弃分割成为可能。[14]、[52]的无分段方法直接将DCNNs以全卷积的方式应用于整个图像，将DCNN最后的全连接层转化为卷积层。为了解决引言中所述的空间定位问题，[14]对中间特征图的得分进行了向上采样和拼接，而[52]则通过将粗结果传播到另一个DCNN将粗结果细化。我们的工作建立在这些工作的基础上，如介绍中所述，通过对特征分辨率进行控制、引入多尺度池技术以及在DCNN上集成[22]密集连接的CRF来扩展它们。我们表明，这带来明显更好的分割结果，特别是沿对象边界。DCNN和CRF的结合当然不是什么新鲜事，但之前的工作只是尝试了局部连接的CRF模型。具体来说，[53]使用CRFs作为基于DCNN的重新链接系统的建议机制，而[39]将超像素作为本地成对CRF的节点，并使用图切分进行离散推理。因此，他们的模型受到超像素计算错误的限制，或者忽略了长期依赖关系。我们的方法是将每个像素作为接收DCNN一元势的CRF节点。重要的是，我们所采用的[22]全连通CRF模型中的高斯CRF势可以捕获长程依赖关系，同时该模型还可以进行快速的平均场推断。我们注意到，对于传统的图像分割任务[54]、[55]、[56]，均值场推断已经被广泛研究，但这些较老的模型通常局限于短程连接。在独立工作中，[57]使用一个非常相似的密集连接的CRF模型来细化DCNN的结果，用于材料分类问题。然而，[57]的DCNN模块只通过稀疏点监督进行训练，而不是对每个像素进行密集监督。

自从这个工作的第一个版本被公开提供给[38]以来，语义分割领域取得了巨大的进步。多个小组已经取得了重要进展，显著提高了PASCAL VOC 2012语义分割基准的标准，这反映在基准的排行榜[17]、[40]、[58]、[59]、[60]，[61]、[62]、[63]的高水平活动。有趣的是，大多数最优秀的方法都采用了我们DeepLab系统的一个或两个关键组成部分:通过完全连接的CRF对原始的DCNN分数进行高效的稠密特征提取和细化的卷积。下面我们将概述一些最重要和最有趣的进展。

近年来，端到端的结构化预测训练在一些相关的工作中得到了探索。虽然我们采用CRF作为后处理方法，但[40]、[59]、[62]、[64]、[65]已经成功地实现了DCNN与CRF的联合学习。特别是[59]、[65]将CRF均值场推理步骤展开，将整个系统转化为端到端可训练的前馈网络，而[62]通过可学习滤波器的卷积层逼近稠密CRF均值场推理[22]的一次迭代。[40]所追求的另一个富有成果的方向[66]是通过DCNN来学习CRF的成对项，以较大的计算量为代价来显著提高性能。在另一个方向上，[63]将均值域推断中使用的双边滤波模块替换为更快的域变换模块[67]，提高了整体系统的速度，降低了系统的内存需求，而[18]、[68]则将语义分割与边缘检测相结合。

一些论文追求更弱的监督，放松了对整个训练集[58]、[69]、[70]、[71]可以使用像素级语义注释的假设，取得了比如[72]等弱监督的pre-DCNN系统更好的结果。在另一个研究方向，[49]、[73]追求实例分割，联合处理对象检测和语义分割。

我们在这里所说的“空洞卷积”最初是为了在“算法”中有效地计算非抽取小波变换而开发的。一个真实的方案[15]。我们建议感兴趣的读者参考[74]，以获得小波文献的早期参考资料。空洞卷积也与多速率信号处理中的“高贵恒等式”密切相关，它建立在输入信号与滤波器采样率相同的相互作用之上[75]。空洞卷积是我们第一次在[6]中用到的一个术语。同样的操作后来被称为扩展卷积[76]，这个术语是他们创造出来的，因为这个操作与上采样滤波器的常规卷积相对应(或者用[15]的术语来说就是扩展卷积)。不同的作者使用相同的方法来提取DCNNs[3]、[6]、[16]中的更密集的特征。除了单纯的分辨率增强外，空洞卷积还允许我们扩大滤波器的视场，以合并更大的上下文，我们在[38]中已经证明这是有益的。这种方法已被进一步采用[76]，他们采用了一系列具有递增速率的松散卷积层来聚合多尺度上下文。这里提出的用于捕获多尺度对象和上下文的无张力金字塔池方案也使用了具有不同采样率的多个空洞卷积层，但是我们是并行而不是串行进行布局的。有趣的是，空洞技术也被用于更广泛的任务，如对象检测[12]、[77]，实例级分割[78]，可视化问题回答[79]，光流[80]。我们还表明，

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[240345]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码