题目：用于大规模图像识别的非常深层的网络外文翻译资料

2022-11-05 11:33:33

英语原文共 14 页，剩余内容已隐藏，支付完成后下载完整资料

题目：用于大规模图像识别的非常深层的网络

摘要

　　在这项工作中，我们调查了在大规模图像识别设置中，卷积神经网络的深度对其精确度的影响。我们的主要贡献是使用具有非常小（3 * 3）卷积滤波器的架构对于增加了深度的网络的全面评估，这表明将通过将深度推到16-19个权重层可以实现对现有技术配置的显著改进。这些发现是我们ImageNet Challenge 2014提交的基础，我们的团队分别在定位和分类问题中获得了第一和第二名。我们还表明，我们的方法很好地推广到了其他数据集上，在那里他们实现了最好的结果。我们已经使我们的两个性能最好的ConvNet模型公开可用，以便进一步研究在计算机视觉中使用深度视觉表示。

1 引言

卷积网络（ConvNets）最近在大规模图像和视频识别方面取得了巨大的成功，由于大型的公共图像库，高性能计算系统，例如GPU或者大规模的分布式集群。特别的，ImageNet大规模视觉识别挑战（ILSVRC）在深度视觉识别架构中发挥了重要的作用，它已经作为几代大型图像分类系统的实验台了，从高维的浅特征编码到深的ConvNets。

　　随着ConvNets在计算机视觉领域变得越来越流行，已经进行了许多尝试来改进Krizhevsky等人的原始结构，以达到更好的准确性。例如，ILSVRC-2013中最好的提交使用较小的接受窗口大小和在第一个卷积层更小的步长。另一个改进涉及在整个图像和多个尺度上密集地训练和测试网络。在本文中，我们讨论了ConvNet架构设计的另一个重要方面-深度。最后，我们固定了结构的其他参数，并通过添加更多的卷积层来稳定地增加网络的深度，这种方法的可行性是因为在所有层中都使用了非常小的（3*3）的卷积滤波器。
　　结果，我们提出了更加准确的ConvNet的结构，它不仅实现了在ILSVRC分类和定位任务的最好的精度，而且也适用于其他的图像识别数据集。在这些数据集中本文的方法即使是用作相对简单的管道（例如，由没有经过微调的线性SVM分类的深度特征）的一部分，也实现了非常卓越的性能表现。我们已经发布了两个最好的模型，以促进进一步的研究。
　　本文的其余部分组织如下。在第2部分，我们描述我们的ConvNet的配置。图像分类训练和评估的细节展示在第3部分。关于ILSVRC分类任务的配置比较是在第4部分。第5节总结本文。为了完整性，我们还在附录A中描述和评估了我们的ILSVRC-2014目标定位系统，并在附录B中讨论了对其他数据集的深层特征的泛化能力。最后，附录C包含了主要论文修定版本的列表。

2 ConvNet配置

　　为了测量在公平的环境中增加的ConvNet深度带来的改进，我们所有的ConvNet层的配置使用与Ciresan（2011）和Krizhevsky（2012）相同的原则设计。在本节中，首先描述了我们的ConvNet的配置（第2.1节）的通用布局，然后详细介绍了评估中使用的具体配置（2.2节）。然后在2.3节讨论了我们的设计选择并将其与现有的技术相比较。

2.1 架构

　　在训练期间，我们的ConvNet的输入是固定大小的224 * 224的RGB图像。我们做的唯一的预处理是从每个像素值上减去在训练集上计算的平均RGB值。图像通过一堆卷积层（conv.），其中我们使用具有非常小的接收野的滤波器：3 * 3（这是捕获左/右，上/下，中心概念的最小尺寸）。在其中一个配置中，我们还使用了1 * 1的卷积过滤器，这可以看作是输入通道的线性变换（之后接一个非线性变换）。卷积步长固定为1个像素；卷积层的输入的空间填充是使得在卷积之后保留空间分辨率，如，对于一个3 * 3的卷积层来说填充是1个像素。空间池化是由5个最大池化层执行的，基在一些卷积层后面（不是所有的卷积层之后都跟着最大池化层）。最大池化是在2*2的像素窗口上执行的，步长为2。
　一堆卷积层（在不同的架构中具有不同的深度）之后是三个全连接层（FC）：前两个每一个都有4096个通道，第三个执行1000类的ILSVRC分类，因此包含1000个通道（每个类一个通道）。最后一层是soft-max层。全连接层的配置在所有网络中都是相同的。
　所有的隐藏层都配有修正的非线性单元（ReLU）。注意到我们的网络只有一个包含有局部响应正则化（LRN）：会在第4节中展示，这种正则化不会改善在ILSVRC数据集中的性能，但会导致内存消耗和计算时间增加。在适用的情况下，LRN层的参数是（Krizhevsky et al., 2012）等人的参数。

2.2 配置

本文评估的ConvNet配置在表1中罗列，每列一个。在下文中我们将会通过他们的名字（A-E）来指代网络。所有配置都遵循2.1节中提出的通用设计，仅在深度上有所不同：从网络A的11个权重层（8个卷积层和3个全连接层）到网络E的19个权重层（16个卷积层和3个全连接层）。卷积层的宽度（通道的数量）越来越大（PS:感觉论文说错了，论文是rather small），从第一层的64个开始，然后在每个最大池化层之后以2次幂增加，直到其达到512。

　　在表2中，我们报告了每个配置的参数数量。尽管有较大的深度，我们网络中权重的数量不大于具有较大的卷积层宽度和接收野的较浅的网络中的权重的数目（114M个权重在（Sermanet等人，2014））。

2.3 讨论

　　我们的ConvNet配置与ILSVRC-2012（Krizhevsky等人 2012）和ILSVRC-2013比赛（Zeiler amp; Fergus, 2013; Sermanet 等人, 2014）中表现最好的模型有很大的不同。我们在第一个卷积层没有使用相对大的感受野（例如，在（Krizhevsky et al., 2012）中是11 * 11 步长是4，或者在 (Zeiler amp; Fergus,2013; Sermanet et al., 2014)中是7 * 7 步长是2，而是在整个网络中使用了非常小的3 * 3 的感受野，对输入中的每一个像素进行卷积处理，步长为1。很容易看到两个3 * 3 的卷积层（中间不带空间池化）和一个5 * 5的卷积层具有相同的感受野（PS：就是说假如输入是5*５的图像，用3*3的filter卷积之后输入图像变成3*3，再来一个3 * 3 的filter卷积后输入图像变成1*1 。这和直接用一个5*5的filter卷积图像是一样的效果；）。3个这样的层就会相当于一个7*7的感受野。所以我们通过使用，例如，三个3*3卷积层的堆叠而不是单个的7*7的卷积层，我们获得了什么？我们引入了三个非线性修正层，而不是一个，这使得决策函数更具有辨别力。第二，我们减少了参数的数量：假设三层3*3的卷积层的一个堆的输入和输出都具有C个通道（PS:通道就是卷积层的输出数量，还需要注意的是输入也是C个通道，后面的公式就好理解了）。这个堆就由3(32C2)=27C2个权重参数化（PS：第一个3是3层，第二个3的平方是filter的大小，因为输入也是C个通道，输出C个通道的每一个的权重都对应着C个，所以是C2）。同时，一个单独的7*7的卷积层将会需要72C2=49C2个参数，比上面的多了81%还多（27 的81%是21.87，加上27 是48.87，所以比81%还多）。这可以被看成是对7*7的卷积过滤器强加了一个正则化，迫使它们通过3*3滤波器（在其间注入非线性）进行分解。
　　
　　表一：ConvNet配置（以列展示）。配置的深度从左（A）向右（E）增加，因为添加了更多的层（添加的层以粗体表示)。卷积层参数表示成“convlt;感受野大小gt;-lt;通道数量gt;”。为了简洁，未展示ReLU激活函数
　　
　　
　　引入1*1卷积层（表1，配置C）是增加决策树的非线性而不影响卷积层的感受野的方式。即使在我们的情况下，1*1卷积本质上是在相同维度空间上的线性映射（输入和输出通道的数量是相同的），由修正函数引入附加的非线性。应当注意，1*1的卷积层最近已经被用于Lin等人（2014）的“Network in Network”架构中。小尺寸的卷积滤波器之前已由 Ciresan（2011）等人使用，但是他们的网络没有我们的网络深，并且他们没有在大规模ILSVRC数据集上进行评估。Goodfellow等人（2014）将深层ConvNets（11个权重层）应用到街道号码识别任务中，并且表明增加的深度能产生更好的性能。GoogLeNet（Szegedy等人2014）是ILSVRC-2014分类任务中表现最好的一个模型，它是独立于我们的工作开发的，但是类似的是它基于非常深的ConvNets（22个权重层）和非常小的卷积过滤器（除了3*3的，他们也使用1*1和5*5的卷积）。然而，他们的网络拓扑结构比我们的更复杂，在第一层中更剧烈的减少特征映射的空间分辨率以减少计算量。如第4.5节所示，我们的模型在单网络分类精度方面优于Szegedy等人（2014）的模型。

3 分类框架

　　在上一节中，我们展示了我们网络配置的细节。在本节中，我们描述分类ConvNet训练和评估的细节。ConvNet的训练过程一般遵循Krizhevsky等人的方法（除了从不同尺寸的训练图像中抽取剪裁的图像，会在正文中解释）。也就是通过使用带有momentum的mini-batch梯度下降算法（基于（LeCun，1989）等人的反向传播）来优化多项逻辑回归目标函数，以此来达到训练目的。批量（batch）大小被设置成256，momentum设置成0.9。训练通过权重衰减（L2惩罚系数设置成5lowast;10minus;4）和对前两个全连接进行droupout正则化（随机失活率设成0.5）来达到规则化的目的。学习率最初设置为10minus;2，然后当在验证集上的精度停止提高时学习率以10倍的速率向下减。总的来说，学习率降低了3次，并且在370K次迭代（74次训练）之后停止学习。我们推测，与Krizhevsky等人相比，尽管我们的网络具有更大的参数量和更大的深度，但是我们的网络需要更少的训练次数就会收敛，由于（a）更大的深度和更小的卷积过滤器大小施加的隐性的正则化；（b）某些层的预初始化。
　　网络权重的初始化是非常重要的，因为坏的初始化可能会由于深度网络中的梯度的不稳定性而使得学习停止。为了规避这个问题，我们开始训练配置A（表1），它是足够浅的可以用随机初始化来训练。当训练更深的架构时，我们用网络A的初始化前四个卷积层和最后三个全连接层（中间层被随机初始化）。我们没有降低预初始化层的学习速率，允许它们在学习期间改变。对于随机初始化（如果适用的话），我们从均值为0，方差为10minus;2的正态分布中抽样权重。偏差用零初始化。值得注意的是，在提交论文之后，我们发现可以通过使用Glorot amp; Bengio (2010)的随机初始化过程来初始化权重，而不用进行预训练。
　　为了获得固定大小的224*224ConvNet输入图像，它们从重新绽放的训练图像上随机裁剪（每次SGD迭代一个图像上一个裁剪）。为了进一步增加训练集，对剪裁的图像进行随机水平翻转和随机的RGB颜色转移（Krizhevsky等人2012）。训练图像的重新缩放会在下文解释。
　　训练图像大小。令S是各向同性重新缩放的训练图像的最小侧，从中截取ConvNet的输入（我们也将S称为训练尺度）。当裁剪尺寸固定为224*224时，原则上S可以取不小于224的任何值：对于S=224来说，裁剪将会捕获整个的图像统计数据，将会完整横跨训练图像的最小边。对于S ≫ 224，裁剪将会对应于图像的一小部分，包括一个小对象，或者对象的一部分。
　　我们考虑两种方法来设置训练尺寸S。第一种就是固定S，这对应于单一尺寸的训练（注意，在抽样裁剪内的图像内容仍然可以代表多尺度的图像统计数据）。在我们的实验中，我们评估了以两个固定尺寸训练的模型：S = 256（其在先前的工作中被广泛使用（Krizhevsky et al., 2012; Zeiler amp; Fergus, 2013; Sermanet et al., 2014））和S = 384。给定ConvNet配置，我们首先使用S = 256训练网络。为了加速S=384网络的训练，使用S=256预训练的权重初始化训练，并且我们使用了较小的初始学习率10minus;3。设置S的第二种方法是多尺度训练，其中通过从某个范围[Smin, Smax]（我们使用Smin=256，并且Smax=512）随机采样S来单独地重新缩放每个训练图像。因为图像中的对象可以具有不同的大小，因此在训练期间将这一点考虑进去是非常有益的。这也可以看成是通过尺寸抖动的训练集增加，其中单个模型被训练以识别大范围尺度上的对象。出于速度上的考虑，我们通过微调具有相同配置的单尺度模型的所有层来训练多尺度模型，用固定的S = 384来预训练。

3.2 测试

在测试时，给定训练的ConvNet和一个输入图像，它按以下方式分类。首先，它被各向同性地重新缩放到预定义的图像的最小边，表示为Q（我们也称为测试尺寸）。我们注意到Q不一定等于训练尺寸S（如我们将在第4节中展示的，对每个S使用几个Q值来改善性能）。然后，以类似于（Sermanet等人，2014）的方式将网络密集地应用于重新缩放的测试图像。也就是说，全连接层首先被转换成卷积层（第一个FC层转换成7*7的卷积层，最后两个FC层转换成1*1的卷积层）。然后将所得到的全卷积网络应用于整个（未剪裁）图像。结果是类别分数图（其通道数量等于类的数量）和一个变化的空间大小（取决于输入图像的大小）。最后，为了获得图像的类分数的固定大小的向量，类别分数图被空间平均了（sum-pooled）。我们也通过水平翻转图像来增加测试集；将原始图像和翻转图像的soft-max分类后验概率进行平均以获得图像的最终分数。

　由于全卷积网络是应用于整个图像上的，因此在测试的时候不需要抽取多个剪裁 (

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[139978]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码