卷积网络与视觉应用外文翻译资料

2022-11-13 16:08:44

英语原文共 4 页，剩余内容已隐藏，支付完成后下载完整资料

卷积网络与视觉应用

Yann LeCun, Koray Kavukcuoglu and Cleacute;ment Farabet

Computer Science Department, Courant Institute of Mathematical Sciences, New York University

{yann,koray,cfarabet}@cs.nyu.edu

摘要：

智能任务，例如视觉感知，听觉感知和语义理解，需要构建问题域（或“特征”）的良好内部表示，其必须不受不相关输入变化的影响，同时保留相关信息。机器学习的一个主要问题是如何自动学习这些有用的特征量。卷积网络（ConvNets）是一种生物学启发的可训练架构，可以学习不变的特征。卷积网络中的每个阶段都由一些非线性的滤波器和特征池层组成。通过多个阶段，卷积神经网可以学习特征的多级层次信息。虽然卷积神经网已成功部署在从OCR到视频监控的许多商业应用中，但它们需要大量标记的训练样本。本文描述了一种新的无监督学习算法，即一种可以使用非常少的标记样本训练的非线性阶段。同时，本文描述了一种用于越野移动机器人的视觉对象识别和视觉导航的应用。

Ⅰ 内部表达的学习

视觉科学（自然视觉、人工视觉）研究中一个核心的问题是如何建立对视觉世界的良好内涵特征表达。什么样的内涵特征表达允许人工视觉系统检测和分类对象到类别，独立于姿势，规模，具化，构造和类聚？更有趣的是，人工视觉系统如何像动物和人类一样通过简单地观察世界来学习的方式自动学习适当的内部表征？在传统的计算机视觉方法（以及一般的模式识别）中并未研究上述问题：内涵特征由人工设定的特征提取器生成，其输出输入到可训练的分类器。自动学习特征这个问题多年来一直是人们关注的主题，而在过去几年中，随着深度学习方法的发展，已经取得了相当大的进展。

良好的内涵特征表达应该是有等级的，分层次的。就像在是视觉中，在视觉中，像素构成纹理，纹理构成图案，图案构成部分，部分构成对象，对象构成场景。这表明视觉（以及其他模态，如音频和自然语言）的识别架构应该具有多个可彼此叠加的可训练的阶段，并可以用于特征层次结构中的每个级别。这便引出了两个新问题：每个阶段应该输入什么？以及如何训练如此深入的多阶段架构？卷积网络可以较好的解决第一个问题。直到最近，解决第二个问题的方法仍是使用基于梯度的监督学习，但是最近的深度学习研究已经产生了许多无监督的方法，很大程度上减少了对标记样本的需求。

1.1 卷积网络

卷积网络^[1],[2]是由多个阶段组成的可训练的多级架构。卷积网络的每个阶段的输入和输出是称为特征映射的一系列数组。例如，如果输入是彩色图像，则每个特征映射将是包含输入图像颜色通道的二维数组（对于音频输入，每个特征映射将是一维阵列，对于视频或体积图像，它将是一个三维阵列）。而输出的每个特征映射表示在输入所有位置提取的特定要素。每个阶段由三层组成：滤波器组层，非线性层和特征池层。典型的卷积网络由一个，两个或三个这样的3层阶段组成，然后进入分类模块。下文将介绍每种类型的层。

图1. 具有两个功能阶段典型的卷积网络架构

1.2.1滤波器层：

输入是一个三维数组（记为x），由个大小为的二维特征映射组成。三维数组中每个元素记为，每个特征映射记为。输出依旧是一个三维数组（记为y），由个大小为的二维特征映射组成。在滤波器层中，对于每一个输入特征映射和每一个输出特征映射之间有一个可训练的滤波器（内核），大小为。与之间的关系由以下公式表示：，其中*表示二维卷积操作，为可训练的参数。每个过滤器都会遍历输入上每个位置的特定要素。卷积网络具有平移不变性，空间平移虽然会影响输入特征映射，但不影响输出特征映射。

1.2.2非线性层

在传统的卷积网络中，这一层只是包含简单的应用于每个元素(ijk)的激活(sigmoid)函数tanh()。然而在最近的应用中，已经采用了更复杂的非线性结构。其中对于自然图片识别常用的是经过校正的激活(sigmoid)函数：，其中是可以训练的增益参数。在这个校正后的激活（sigmoid）函数后面，有时会有一个减法和除法的局部规范化，其强制了特征图中的相邻特征之间以及相同空间位置处的特征之间的局部竞争。减法规范化操作依据如下公式计算：对于每个元素，，其中是一个归一化的截断高斯加权窗口（通常大小为9x9）。除法规范化依据如下公式计算，，其中。局部对比度归一化层的灵感来自视觉神经科学模型^[3],[4]。

1.2.3特征池化层

该层分别处理每个特征映射。在其最简单的实例中，称为，它计算每个特征映射中邻域的平均值。领域的步幅大于1（但小于或等于整个特征映射的尺寸）。这导致降低分辨率的输出特征映射，其对前一层中的特征的位置的小变化是鲁棒的。平均操作有时也用取最大值操作代替。传统的卷积网络在池化层后用tanh()逐点计算，但是最近更多的研究并不这样做了。另外一些卷积网络完全省去了单独的池化层，而选择在滤波器组层中使用大于1的步幅来降低分辨率^[5],[6]。在最近的一些版本的卷积网络中，除了在同一特性的相邻位置采用池化操作，在同一位置相似特性的情况也采用了池化操作^[7]。

使用随机梯度下降的监督训练来最小化网络的实际输出与期望输出之间的差异。在训练学习过程中所有层中所有滤波器的所有参数同时更新。使用反向传播方法计算梯度。参考文献2中给出了具体的过程，参考文献8中给出了有效的训练方法。

图2. F-R abs -N-PA型特征提取阶段的一个例子。输入图像（或特征图）通过滤波器组，然后是abs(gi .tanh())，局部减法和分裂对比归一化和空间汇集/子采样

1.3 历史和应用

卷积神经网可以被视为一系列模型（Multi-Stage Hubel-Wiesel Architectures）的代表。这个想法起源于Hubel和Wiesel 1962年关于猫主要视觉皮层的经典工作。它假定了具有局部感受野的方向选择性简单细胞，其作用类似于卷积网络中的滤波器组层，同时假定了复杂细胞，其作用类似于卷积网络中的池化层。第一个在计算机上模拟的类似模型是Fukushima的Neocognitron模型^[9]，它使用分层的且无监督的竞争学习算法用于滤波器组，以及单独训练的监督线性分类器用于输出层。参考文献5和1的创新是简化了之前的架构并使用反向传播算法并以监督的方式训练整个系统。这种方法非常成功，可用于光学字符识别（OCR）和手写识别等任务。在20世纪90年代早期AT＆T开发了基于卷积网络的运营银行支票阅读系统[2]。它于1993年首次在商业上部署，在欧洲和美国的检查读取ATM机上的DSP板上运行，并于1996年部署在大型银行支票读取机中。到90年代末，美国有超过10%的支票由其检查读取。这推动了微软推动卷积网络应用在大量光学字符识别（OCR）和手写字母识别系统上^{[6],[10],[11]}，包括阿拉伯^[12]和中文字符^[13]。基于监督学习的卷积网络也被用于图像中的物体识别，包括具有实时性能和准确性记录的人脸识别系统^{[14],[15],[16],[17]}。Google最近正在部署卷积网络项目用于在街景图像中的人脸识别和车牌识别以保护隐私[18]。NEC在日本部署了基于卷积网络的系统，用于跟踪超市中的客户并识别他们的性别和年龄。Vidient Technologies开发了一种基于卷积网络的视频监控系统，该系统部署在美国的几个机场。法国电信公司已经为视频会议和其他系统部署了基于卷积网络的人脸检测系统^[15]。其他实验检测应用包括手/手势^[19]，徽标和文本^[20]。卷积网络用于检测的一大优势是它们的计算效率：即使系统在小窗口上训练，也足以将卷积扩展到输入图像的大小并复制输出层以计算每个位置的检测。监督学习的卷积网络也被用于越野移动机器人的基于视觉的避障^[21]。最近由DARPA赞助的关于越野机器人视觉导航的LAGR计划的两名参与者使用卷积网络进行远程障碍物检测^[22],[23]。在文献22中，系统是使用无监督学习（如第II部分所述）和监督学习的组合离线预训练的。然后在机器人运行时使用短距离立体视觉系统提供的标签在线进行调整（参见http://www.cs.nyu.edu/yan / research / lagr上的视频）。同时也有许多关于卷积网络的有趣新应用包括图像恢复^[24]和图像分割，特别是对于生物图像^[25]。卷积网络与MRF相比的最大优势是能够将大型上下文窗口考虑在内。麻省理工学院将其用于从一堆几纳米厚的脑切片图像重建神经元回路获得了惊人的结果^[26]。

近年来，在传统的Neocognitron架构上出现了多阶段Hubel-Wiesel架构等其他实例。与监督学习下的卷积网络不同，它们结合使用手工制作和简单的无监督方法来设计滤波器组。典型的工作包括Mozer的视觉模型^[27]，以及来自麻省理工学院T. Poggio实验室的所谓HMAX系列模型^[28],[29]，它在第一阶段使用了硬连线Gabor滤波器，并在第二阶段使用简单的无监督的随机模板选择算法。所有阶段采用逐点的非线性最大值池化操作。来自同一所研究所的Pinto等人^[4]通过使用基于GPU的并行硬件的单阶段架构进行系统实验，确定了最合适的非线性和标准化。

Ⅱ非监督学习的卷积网络

使用监督学习梯度反向传播方法训练深层多阶段架构需要许多标记样本。然而，在许多问题中，标记数据很少，而未标记数据很多。最近的深度学习研究^{[30],[31],[32]}表明，无监督学习可以仅使用未标记的数据一个接一个地训练每个阶段，显著降低了标记样本的需求。在文献33中，使用绝对值和非线性归一化，无监督预训练和监督全局细化通过每个类别只有30个训练样本已经证明在Caltech-101数据集上产生了优异的性能（下文将详细介绍）。在文献34中，创新的使用基于稀疏受限玻尔兹曼机器的无监督方法在同一组上获得了良好的精度。 NEC的一些工作也表明，使用辅助任务^[35],[36]有助于校正系统并产生出色的性能。

2.1具有预测性稀疏分解的无监督训练

我们提出的无监督方法，用于学习滤波器组层中的滤波器系数，称为预测性稀疏分解（PSD）^[37]。类似于众所周知的稀疏编码算法^[38]，输入近似为字典元素的稀疏线性组合。在任何给定输入的常规稀疏编码中，需要运行昂贵的优化算法来找到（即，“基础追踪”问题）。PSD训练前馈回归器（或编码器）以实现快速找到近似稀疏解。在训练过程中，特征向量通过最小化如下公式获得：

其中，是由字典元素列向量构成的矩阵，是滤波器组。对于每一个训练对象，首先找到让最小的，然后随机梯度下降来调整降低E。训练完成之后，对于给定输入的特征向量，可以简单地用获得，因此该过程非常快（前馈）。

表1. CALTECH-101数据集上的平均识别率

2.2物体识别的结果

在本节中，将比较各种体系结构和训练过程，以确定哪些非线性操作和训练流程更可取。

使用Caltech 101数据集进行通用对象识别：

我们使用简单的两阶段系统，其中第一阶段为具有64个尺寸为9times;9的滤波器的滤波器层，随后是不同的非线性和池化组合操作。第二阶段特征提取器的输入是第一阶段的输出。并输出256个特征映射，每个映射使用9times;9内核组合来自前一阶段的16个特征映射的随机子集。因此，卷积核的总数是256times;16 = 4096。

表I总结了实验结果，其中和分别表示无监督预训练和随机初始化，表示整个系统的监督微调。

使用无监督预训练和带有绝对非标准化的非线性监督细化，可获得65.5％的极佳准确度。结果与基于SIFT和金字塔匹配核SVM的流行模型相同^[39]。很明显，绝对和归一化可以很大程度提高实现性能，对于传统上只使用tanh（）卷积网络的用户来说，这是一个非常重要的优化方法。
令人惊讶的是，没有任何滤波器学习过程，而只存在绝对和归一化（），的随机滤波器也可以获得不错的性能（为62.9％）。关于这点文献33提供了更详细的研究。
通过与，与的实验结果行比较，我们发现有监督的微调一致地改善了性能，特别是在弱非线性的情况下。
当新提出的非线性不存在时，似乎无监督的预训练（，）对实验结果起到了决定性作用。

使用MNIST数据集进行手写数字分类：

基于先前实验的经验，我们使用具有双层全连接分类器的两阶段系统。两个卷积阶段在无人监督的情况下进行了预训练，并进行了监督的调整。在测试集上实现了0.53％的错误率。据我们所知，这是在没有失真或预处理前提下，原始MNIST数据集上报告的最低错误率。过去已知的最低错误率为0.60%^[32]lt;

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[18327]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码