深度学习外文翻译资料

2021-12-20 21:58:19

英语原文共 9 页

深度学习

深度学习允许由多个处理层组成的计算模型来学习具有多个抽象级别的数据表示。这些方法极大地改进了语音识别，视觉对象识别，物体检测以及药物发现和基因组学等许多其他领域的最新技术。深度学习通过使用反向传播算法来发现大型数据集中的复杂结构，以指示机器应如何更改其内部参数，这些参数用于从前面的表示形式计算每个图层中的表示形式层。深度卷积网在处理图像，视频，语音和音频方面带来了突破，而递归网络则对文本和语音等顺序数据处理指引方向。

机器学习

机器学习技术为现代社会的许多方面提供动力：从网络搜索到社交网络上的内容过滤，再到电子商务网站的推荐，以及它越来越多地出现在相机和智能手机等消费产品中。机器学习系统用于识别图像中的对象，将语音转录到文本中，将新闻项目、帖子或产品与用户的兴趣相匹配，并选择相关的搜索结果。这些应用程序越来越多地使用一种称为深度学习的技术。

传统的机器学习技术在处理原始形式的自然数据方面受到限制。几十年来，构建模式识别或机器学习系统需要精心的工程和相当多的领域专业知识来设计一个特征提取器，将原始数据转换为合适的内部表示或特征向量，学习子系统可以检测或分类输入中的模式。

表示学习是一组方法，允许为机器提供原始数据，并自动发现检测或分类所需的表示。深度学习方法是具有多个表示级别的表示学习方法，通过组合简单但非线性的模块获得，每个模块都将一个级别的表示转换为表示更高，更抽象的级别。通过足够的这种转换的组合，可以学习到非常复杂的函数。对于分类任务，更高的表示层的表示法放大了对识别很重要的输入方面的内容，并抑制了不相关的变化。例如，图像以像素值数组的形式出现，第一表示层中的学习要素通常表示图像中特定方向和位置处的边的存在或不存在。第二层通常通过发现特定的边缘排列来检测图案，而不考虑边缘位置的微小变化。第三层可以将图案组合成与熟悉对象的部分相对应的更大组合，并且随后的层将检测对象作为这些部分的组合。深度学习的关键方面是这些层的特征不是由人类工程师设计的：它们是使用通用学习程序从数据中学习的。

深度学习在解决多年来一直抵制人工智能交流的最好尝试的问题方面取得了重大进展。事实证明，它非常善于发现高维数据中错综复杂的结构，因此适用于科学，商业和政府的许多领域。除了在图像识别和语音识别中击败记录外，它还在预测潜在药物分子的活性，分析粒子加速器数据，重建大脑等方面击败了其他机器学习技术，并预测非编码DNA中突变对基因表达和疾病的影响。也许更令人惊讶的是，深度学习为自然语言理解中的各种任务产生了非常有希望的结果，特别是话题分类，情绪分析，问题回答和语言翻译。

我们认为深度学习在不久的将来会有更多的成功，因为它需要手工制作很少的工程，因此它可以轻松利用可用信息和数据量的增加。目前正在为深度神经网络开发的新学习算法和体系结构进展加速。

监督学习

最常见的机器学习形式，无论是否深入，都是有监督的学习。想象一下，我们想要建立一个系统，可以将图像分类为包含房子，汽车，人或宠物。我们首先收集房屋，汽车，人和宠物的大量图像，每个图像都标有其类别。在训练中，机器将显示一个图像，并以分数矢量的形式产生输出，每个类别一个。我们希望所需的类别在所有类别中得分最高，但这在训练之前不太可能发生。我们计算一个目标函数来测量输出分数和所需分数模式之间的误差。然后，机器修改其内部可调参数以减少误差。这些可调参数是实数，通常称为权重，可以看作是定义机器输入输出功能的“旋钮”。在典型的深度学习系统中，可能存在数亿个这样的可调节量，以及数亿个标记示例来训练机器。

为了正确调整权重向量，学习算法会发出一个梯度向量，对于每个权重，该梯度向量指示如果权重增加很小的量，误差将增加或减少的量。然后在与梯度向量相反的方向上调整权重向量。

所有训练样例的平均目标函数可以被视为重量值高维空间中的一种丘陵景观。负梯度向量表示该景观中最陡下降的方向，使其接近最小值，其中输出误差平均较低。

实际上，大多数研究者使用的程序称为随机梯度下降。这包括显示几个示例的输入向量，计算输出和误差，计算这些示例的平均梯度，以及相应地调整权重。对于来自训练集的许多小样本重复该过程，直到目标函数的平均值停止减小。它被称为随机，因为每个小的样本给出了对所有样本的平均梯度的噪声估计。与更复杂的优化技术相比，这种简单的程序通常能够以惊人的速度快速找到一组良好的权重。在训练之后，系统的性能将在一组称为测试集的不同样本上进行测试。这有助于测试机器的泛化能力，它能够在训练期间从未见过的新输入产生合理的答案。

目前机器学习的许多实际应用都是在手工设计的功能之上使用线性分类。二类线性分类器计算特征向量分量的加权和。如果加权和高于阈值，则输入被分类为属于特定类别。

自20世纪60年代以来，我们已经知道线性分类器只能将其输入空间划分为非常简单的区域，即由超平面分隔的半空间。但是诸如图像和语音识别之类的问题要求输入输出功能对输入的无关变化不敏感，例如位置的变化，物体的方向或亮度，或者语音的音调或重音的变化，同时非常对特定的微小变化敏感。在像素级别，不同姿势和不同环境中的两个萨摩耶犬的图像可能彼此非常不同，而在相同位置和不同背景上的萨摩耶犬和狼的两个图像可能彼此非常相似。线性分类器，或任何其他“浅”分类器，原始像素不可能区分后两个，同时将前两个放在同一类别中。这就是为什么浅层分类器需要一个好的特征提取器来解决选择性不变性困境的原因，它产生的表示形式是对图像的各个方面的选择性，这些方面对于区分是重要的，但是对于不相关的方面是不变的。为了使分类器更强大，可以使用通用的非线性特征，但是像高斯内核那样的通用特征不允许学习者远离训练样例的情况下进行泛化。传统的选择是手工设计好的特征提取器，这需要相当多的工程技能和领域专业知识。但是，如果可以使用通用学习程序自动学习好的功能，则可以避免这一切。这是深度学习的关键优势。

深度学习体系结构是简单模块组成的多层堆栈，所有模块都需要学习，其中许多模块计算非线性输入输出映射。堆栈中的每个模块都会转换其输入，以增加表示的选择性和不变性。对于多个非线性层，系统可以实现极其复杂的输入函数，这些函数同时对细微的细节敏感，区分萨摩耶与白狼，并且对诸如背景，姿势，光照和周围物体等大的无关变化不敏感。

图1 多层神经网络和反向传播

图1多层神经网络和反向传播。a：多层神经网络可以使输入空间变形以进行数据的分类线性可分。请注意，输入空间中的常规网格也是被隐藏单位转换。这是仅具有两个输入单元，两个隐藏单元和一个输出单元的说明性示例，但是用于对象识别的网络或自然语言处理包含数十或数十万个单位。b:导数的链式规则告诉我们如何组成两个小的影响（x对y的小变化和y对z的变化）。小的变化Delta;x通过乘以part;y/part;x，x首先变换为y中的小变化Delta;y。类似地，变化Delta;y在z中产生变化Delta;z。将一个等式代入另一个等式给出了导数的链式规则,通过乘以part;y/part;x和part;z/part;x的乘积，Delta;x如何变成Delta;z。它也适用于x，y和z是向量。c：用于计算具有两个隐藏层和一个输出层的神经网络中的前向通道的等式，每个隐藏层和一个输出层构成模块通过哪一个可以反向传播渐变。在每一层，我们首先计算每个单元的总输入z，它是下面层中单元输出的加权和。然后将非线性函数f（.）应用于z以获得单元的输出。为简单起见，我们省略了偏差项。神经网络中使用的非线性函数包括近年来常用的整流线性单位（ReLU）f（z）= max（0，z），以及更常规的sigmoids，如hyberbolic tangent，f （z）=（exp（z） - exp（-z））/（exp（z） exp（-z））和逻辑函数logistic，f（z）= 1 /（1 exp（-z））。d:用于计算后向的方程式,通过在每个隐藏层，我们计算相对于每个单元的输出的误差导数，其是误差导数相对于上面层中单元的总输入的加权和。然后，我们将相对于输出的误差导数转换为相对于输入的误差导数，方法是将其乘以f（z）的梯度。在输出层，通过对成本函数进行微分来计算相对于单位输出的误差导数。如果成本，这给出y₁-t₁单位l的函数是0.5（y₁ -t₁）²，其中t₁ 是目标值。一旦part;E/part;zk如果已知，在下面的层中来自单元j的连接上的权重w_JK的误差导数仅为y_jpart;E/part;zk。

反向传播训练多层体系结构

从模式识别的早期阶段，研究的目的一直用可训练的多层网络取代手工设计的功能，但尽管它很简单，直到20世纪80年代中期才得到广泛的理解。事实证明，多层体系结构可以通过简单的随机梯度下降进行训练。只要模块的输入功能和内部权重相对平滑，就可以使用反向传播过程计算梯度。在20世纪70年代和80年代，由几个不同的团体独立发现了这种可以做到并且有效的想法。

计算目标函数相对于多层模块堆栈的权重的梯度的反向传播过程，只不过是导数链规则的实际应用。关键的见解是，目标相对于模块输入的导数可以通过从梯度相对于该模块的输出向后工作来计算（图1）。反向传播方程可以重复应用所有模块中传播梯度，从顶部的输出一直到底部。一旦计算出这些梯度，就可以直接计算相对于每个模块的权重的梯度。

深度学习的许多应用使用前馈神经网络体系结构（图1），它学习将固定大小的输入映射到固定大小的输出。为了从一个层到另一个层，一组单元计算来自前一层的输入的加权和，并通过非线性函数传递结果。目前，最流行的非线性函数是整流线性单元（ReLU），它只是半波整流器f（z）= max（z，0）。在过去的几十年中，神经网络使用更平滑的非线性，例如tanh（z）或1 /（1 exp（-z）），但ReLU通常在具有多层的网络中学得更快，允许在无人监督的训练情况下训练深度监控网络。不在输入或输出层中的单元通常称为隐藏单元。隐藏层可以看作是以非线性方式扭曲输入，因此类别成为线性可分离的最后一层（图1）。

在20世纪90年代末，神经网络和反向传播在很大程度上被机器学习社区所抛弃，被计算机视觉和语音识别社区所忽视。人们普遍认为，学习有用的，多阶段的，具有很少先验知识的特征提取器是不可行的。特别是，人们普遍认为简单的梯度下降会陷入较差的局部极小重量配置中，不会有小的变化减少平均误差。

在实践中，较差的局部最小值很少成为大型网络的问题。无论初始条件如何，系统几乎总能达到非常相似质量的解决方案。最近的理论和实证结果强烈表明，局部最小值一般不是一个严重的问题。相反，景观充满了组合大量的鞍点，其

中梯度为零，表面在大多数维度上向上弯曲，向下弯曲余数。分析似乎表明，只有少数向下弯曲方向的鞍点存在非常大的数量，但几乎所有鞍点都具有非常相似的目标函数值。因此，算法陷入困境中的哪些鞍点并不重要。由加拿大高级研究院召集的一组研究人员在2006年左右重新开始对深度前馈网络的兴趣。研究人员介绍了无监督学习程序，可以创建多层特征检测器而无需标记数据。学习每层特征检测器的目的是能够重建或模拟下面层中特征检测器的活动。通过使用该重建目标“预训练”若干层逐渐更复杂的特征检测器，可以将深度网络的权重初始化为合理值。然后可以将最后一层输出单元添加到网络的顶部，并且可以使用标准的backpropaga-tion对整个深度系统进行微调。这对于识别手写数字或检测行人非常有效，特别是当标记数据量非常有限时。这种预训练方法的第一个主要应用是语音识别，它通过快速图形处理单元（GPU）的出现而成为可能，这些单元便于编程，并允许研究人员以更快的速度训练网络10或20倍。在2009年，该方法用于将从声波提取的系数的短时间窗口映射到可能由窗口中心的帧表示的各种语音片段的一组概率。它在标准的语音识别基准测试中取得了破纪录的成绩，该基准测试使用了一个小的词汇表，并且很快就开发出来以便在大型词汇任务中给出创纪录的结果。到2012年，许多主要语音组正在开发2009年的深网版本，并且已经部署在Android手机中。对于较小的数据集，无监督的预训练有助于防止过度拟合，当标记的示例数量较少时导致明显更好的泛化，或者在传输设置中我们有很多示例用于某些“源”任务但非常一些“目标”任务很少。一旦深度学习得到恢复，事实证明只有小型数据集才需要预训练阶段。然而，有一种特殊类型的深度前馈网比相邻层之间具有完全连通性的网络更容易训练和推广的工作。这是卷积神经网络，在神经网络不受欢迎的时期，它取得了许多实际成功，并且最近被计算机视觉社区广泛采用。

卷积神经网络

ConvNets设计用于处理以多个阵列形式出现的数据，例如由三个2D阵列组成的彩色图像，在三个颜色通道中包含像素强度。许多数据模式采用多个数组的形式：信号和序列的一维，包括语言;2D用于图像或音频谱图;视频或体积图像的3D。ConvNets背后有四个关键概念利用自然信号的属性：本地连接，共享权重，池和使用许多层。

典型的ConvNet架构（图2）由一系列阶段构成。前几个阶段由两种类型的层组成：卷积层和池层。卷积图层中的单位在要素图中进行组织，在要素图中，每个单元通过一组称为筛选器库的权重连接到上一个图层的要素图中的本地补丁。然后，该局部加权和的结果通过诸如ReLU的非线性。要素图中的所有单位共享相同的过滤器库。图层中的不同特征映射使用不同的滤波器库。原因是这种架构是双重的。首先，在诸如图像的阵列数据中，局部值组通常高度相关，形成易于检测的独特局部图案。其次，图像和其他信号的局部统计对于位置是不变的。换句话说，如果一个主题可以出现在图像的一个部分中，它可以出现在任何地方，因此不同位置的单元的概念共享相同的权重，并在阵列的不同部分中检测相同的图案。在数学上，由特征映射执行的滤波操作是离散卷积，因此被命名。

尽管卷积层的作用是检测来自前一层的特征的局部连接，但池层的作用是将语义相似的特征合并为一个特征。由于构成主题的特征的相对位置可能会有所不同，因此可以通过

资料编号：[4212]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码