深层超限学习机外文翻译资料

2022-10-30 10:45:30

英语原文共 13 页，剩余内容已隐藏，支付完成后下载完整资料

深层超限学习机

摘要：极限学习机是应单隐层前馈神经网络而生的一种新兴算法，这种网络的隐藏节点参数随机生成且输出权值由其解析计算得出。然而，因为这种网络的浅层结构，即使具有大量的隐藏节点，使用ELM的特征学习对于自然信号（如图像/视频）也并不高效。为了解决这个问题，在本文中，提出了一种新的基于ELM的学习框架—多层感知机。该结构可分为两个主要的部分：1）自主特征提取后进行有监督分类和2）它们可以通过随即初始化的隐藏节点连接。本文的要点如下：1）无监督多层编码被用于特征提取，且一种基于ELM的稀疏自编器通过L1限制得以发展。如此，它比原始的ELM得到了更加简洁和更富意义的特征；2）通过利用ELM随即特征映射的优势，分层的编码输出在最终分类判断之前通过随机映射生成，这样便以更快的学习速度得到了更好的泛化性能；3）不同于深度学习的贪婪训练算法，该框架的隐藏层以一种前进的方式训练。只要前一层的参数确定，当前层的参数便可在无微调的情况下确立。因此，它具有远超于DL的学习效率。大量基于不同广泛使用的分类数据集的实验证明该算法比当前其它先进的分层学习方法能够实现更好且更快的收敛性。此外，在机械视觉上的许多应用进一步证明了该学习方案的通用性和性能。

索引项：深度学习（DL），深度学习网络（DNN）,极限学习机（ELM），多层感知机（MLP）,随机特征映射

I 绪论

在过去的几年里，极限学习机（ELM）[1]以其独特的特点如极快的训练速度、良好的泛化能力和通用的逼近/分类能力，已逐渐在机器学习和人工智能领域成为了一个越来越有意义的研究主题。ELM是单隐层前馈神经网络（SLFNs）的一种有效的学习方法，且已被证明在许多应用中都具有极好的学习准确率/速度，如人脸识别[2],图像分割[3],和人体行为识别[4]。

不同于其他传统的学习算法，如基于反向传播算法（BP）的神经网络（NNs）或支持向量机（SVM），ELM隐藏层的参数随机生成且不必微调，因此隐藏层节点能够训练样本需要前即可确立。理论上，Huang等[5],[6]已证明SLFNs在隐藏层节点随机生成且输出权值通过最小正则均方误差确立的条件下，即使不更新隐藏层节点参数，依旧能保持其通用逼近性。而且，ELM解决最小正则均方误差的速度高于标准SVM解决二次规划问题或基于BP的NNs的梯度下降法。因此，ELM相较于其他的NNs和SVM具有更快和更好的泛化表现[1],[5],[7]。

近年来，ELM被广泛学习，理论上和应用上均有突出的表现。ELM的通用能力已延伸至内核学习，结果表明ELM相较于传统的类型[1]更适用于广泛类型的特征映射。一种增量型的ELM在[5]中提出，其隐藏节点的数目逐渐增加且输出权值通过解析生成。ELM还被转化为为了在线连续版本[8],原始的数据可以一个个或以固定或变动的大小一块块（一组数据）输入。Huang等在[9]基于流型正则化延伸ELM使其能处理半监督和无监督任务，无标记或部分标记的样本可通过ELM分类。

但是，上述工作在解决自然情景（如视觉和声音信号）或实践应用（如图像分类、声音识别及其他）时仍具有一些问题。即，原始的ELM及其变体主要用于分类，然而在许多应用中分类前需要进行特征学习。因此，常常需要一种多层的解决方法。Kasun等[10]试图用ELM自编码器为基础构建一种多层的学习结构。原始的输入在多个隐藏层中逐步分解且当前层的输入为前一层的输出。这种自编码器[10]在一个分层结构中简单地层层堆叠。在有监督最小正则均方误差优化之前，编码输出在没有随机特征映射的条件下直接输入到最后一层进行判断。这种结构并没有很好的利用ELM理论的优势,如Huang在[5]中证明ELM 的通用逼近能力在没有输入的随机投影时得不到保障。因此，很显然，ELM 在多层应用上的潜质尚未完全开发，而具有更快训练速度、更好的特征学习能力和分类表现的基于ELM的多层神经网络（MLP）迫切需要。

与此同时，另一种前沿分层式学习趋势被称为深度学习(DL)[11]或深度神经网络（DNNs）[12]。类似地，这种深层结构依靠多层特征显示框架提取特征且越高的层数比较低的层数呈现出更加抽象的信息。从[11]-[15]的观点中得出，DL是以无监督初始化代替传统的随即初始化的多层网络的反向传播学习。换句话说，DL以无监督初始化的方式将多层看做一个整体，且在初始化后，整个神经网络利用基于反向传播的神经网络进行训练，且所有的层都被硬编码在一起。不得不提的是，DL框架内整个系统所有隐藏层参数需要被微调很多次。因此，DL的训练方式极为笨重和费时。

从以上分析得出，现存的学习算法（包括基于ELM和基于DL）对于MLP而言不能以快速的学习性能得到完美的泛化表现。在本文中，基于MLP理论，我们扩展ELM且为MLP推荐一种分层的ELM结构。该MLP在ELM之上进一步改善了学习的表现，同时保持它训练效率高的优点。推荐的方案重点如下：

一种新的ELM 自编码器经由L1规范优化得以发展。不同于DL中现存的自编码器如基于BP的NNs，该自编码器的输入权值和隐藏层节点偏置是通过在随机空间搜索路径得到的。ELM理论在[5]中证明随机特征映射（包括几乎全部非线性分段激活函数）能提供通用逼近能力。通过这样做，隐藏层特征显示中更多有用的信息可被利用。与[10]中L2规范的ELM自编码器相比，这里L1惩罚可被用于生成更稀疏和更有意义的特征。
一种新的H-ELM框架被推荐为一种有效和高效的MLP。该MLP有两大部分组成:a)无监督的多层特征编码和b)有监督的特征分类。该ELM稀疏自编码器被用于特征显示或提取，且堆栈结构中每层都可以看做独立的部分（或一个自主的子系统/子模块）；对于特征分类，得到的高水平特征首先由一个随机矩阵随机生成，然后基本的ELM用于最后的分类判断。注意，基于ELM理论[5]特征提取向高维非线性转化可进一步提高特征分类精度。此外，不同于DL框架中的贪婪学习方法，在推荐的H-ELM框架中特征提取和分类是两个分离自主的部分且整个系统的分类和提取都不需要微调，因此训练速度比传统的基于BP的DL快很多。
为了证明该H-ELM框架的优点，几种不同的基于H-ELM的特征提取和分类算法因实用计算机视觉应用程序得以发展如目标检测、识别和跟踪。得到的结果远超预期，进一步证明了H-ELM的通用性和性能。

本文的余下部分组织如下。第II部分介绍包括ELM的基本概念和理论的相关作品。第III部分描述推荐的H-ELM的结构和它相关的ELM稀疏自编码器。第IV部分在不同的测试集上比较H-ELM与ELM及其他相关的先进算法的表现。第V部分呈现该H-ELM几种现实的应用包括车辆检测、手势识别和实时物体跟踪。最后，总结被置于第VI部分。

II相关工作

本文中，ELM被延伸至MLPs,为了更好地理解该算法。这一部分简短地复习了ELM相关的概念/理论，包括基本的观点和原本的ELM和ELM 自编码器的性能。

A ELM理论

假定有L个隐藏节点的SLFNs能以如下等式表达：

其中表示第i个隐藏节点的激活函数，是连接输入层和第i个隐藏节点的输入权向量，是第i个隐藏节点的偏置，以及是输出权值。对于有激活函数g的添加节点，如下定义：

以及对于径向基函数（RBF）结点的激活函数g，被定义为

(3)

Huang在[5]中证明对于任意包含随即初始化的自适应或RBF结点的紧子集,SLFNs能够逼近任何连续的目标函数。令是定义在d维空间上的紧子集X的函数f如此是可积的，即。对于,内积lt;u,vgt;被定义为

在空间内范数被表达为，以及网络参数与目标函数f之间的接近程度通过距离来衡定：

理论2.1：给定任意有界非恒量分段连续函数g:RR,如果函数跨{}在上密集，则对于任意基于随机生成的连续抽样分布的目标函数f和任意目标序列，当输出权值由最小正则均方误差确定时，具有最大可能。

基于[5],[16],[17]的理论，当且仅当激活函数是非恒量分段的且跨在上密集，输出由最小正则均方误差确立的随机生成的网络结构能够保持它通用的逼近能力。基于这个理论，ELM能实现快速学习，这将在下个部分详细讲述。

B ELM学习算法

基于理论2.1，ELM能由随即初始化的隐藏节点构建。给定一个训练集,其中是训练数据的输入向量，表示每个训练样本的目标，及L表示隐藏节点的数目。

从上述论点可以得出，不同于传统的学习算法（可见相关工作于[7]中），ELM理论在最小化训练误差的同时，也最小化输出权重的范数[1][7]。

Minimize: (6)

其中gt;0,gt;0,u、v=0,(1/2),1,2,,H是隐藏层的输出矩阵（随机矩阵）

(7)

及T是训练集目标矩阵

ELM训练算法的总结如下：

随机选取隐藏层节点参数，例如输入权重及附加于隐藏节点的偏置
计算隐藏层输出矩阵H
得出输出权值向量

其中，是矩阵H的穆尔-彭罗斯广义逆

正交投影法能有效计算MP逆矩阵：如果是非奇异的，则;如果非奇异的，则。根据岭回归理论，一个积极常量在输出权重的计算中被提议加入或的对角线中。如此，根据[1]和[7],由其产生的解决方法与ELM以的优化方法在性能上是对等的，但其更加稳定且具有更好的泛化表现。因此，为了改善ELM的稳定性，我们令

相应地ELM的输出函数为

或者，我们令

相应的ELM的输出函数为

C ELM自编码器

除了基于ELM的SLFNs，ELM理论还用于为MLP设计一个自编码器。从理论上说，自编码器在一个多层学习框架中用于某种特征提取的方法。它通过最小化重构误差令编码输出逼近于原始输入。数学意义上，自编码器将输入数据x映射到一个更高维的显示，然后令隐藏层输出y通过一个确定性的映射,通过参数化，其中是激活函数，A是一个的权重向量及b是一个偏置向量。由此产生了的隐藏层显示y被映射回去来重构输入向量Z,在输出空间中,其中。

用随机映射输出来创建y，我们可以如[10]所示简单地创建ELM自编码器。然而，X的重建被当做ELM中的一个学习难题，其中通过解决最小正则均方误差优化问题解决。但是，由于在原始的ELM中应用了L2惩罚项，在[10]中ELM自编码器的特征提取变得密集而冗余。在这种情况下，一种更稀疏的解决方法会更好。

III 本文提议的学习算法

在这一部分，我们为MLP提议一种新的H-ELM框架。该算法H-ELM的全部结构将在这里详细叙述，同时一种新的ELM稀疏自编码器也将在这里讲述，其将用于构建H-ELM的基本单元。

A H-ELM框架

如Fig.1所示，该H-ELM框架以一种多层的方式构建。不同于[11][13]中传统DL框架中贪婪算法训练，我们可以看到H-ELM框架在结构上被分为两个独立的部分：1）无监督分层特征识别2）有监督特征分类。在第一个部分，一种新的ELM自编码器被开发出来用于提取输入数据的多层稀疏特征，这在下一节中会详细述说。在第二部分，原始的ELM回归方法会用于分类判断。

在下文中，我们会提供H-ELM的详细描述，以及它相对于已存在的DL和多层ELM（ML-ELM）算法的优势。在无监督特征学习之前，输入的原始数据需要被转化到一个ELM随机特征空间，这可以有助于利用训练样本中的隐藏信息。然后，一个N层的无监督学习最终用于得到高维的稀疏特征。数学上，每一个隐藏层的输出可被表示为：

其中是第i层的输出（）,是第i-1层的输出，表示隐藏层的激活函数及表示输出权重。注意，在这里H-ELM的每一层都是一个独立的模块，并且用于一个独立的特征提取设施。当层数增加时，生成的特征变得更加简洁。一旦前一个隐藏层的特征提取完成，当前隐藏层的权重或参数便已确定且不必微调。这与现存的DL框架[11]-[15]完全不同，在那里，所有的隐藏层以无监督初始化的方式被放在一起当做一个整体。整个系统需要用基于BP的NNs迭代训练多次。因此，H-ELM的训练比DL快很多。

从Fig.1(a)中，我们同样可以看到在H-ELM的无监督分层学习后，产生的第k层的输出被当做从原始数据中提取出来的高维特征。当用于分类时，它们由随机映射生成，然后用于基于ELM的有监督回归问题的输入去的到整个网络的最终分类结果。有随机映射得到的原因是保持ELM的通用逼近能力需要输入的随机投影。

理论上，为了加快学习速度，该H-ELM框架基于随即特征映射开发并且在特征学习和提取方面充分利用了ELM的通用逼近能力。根据理论2.1，利用随机映射的产生的特征作为作为输出权重的输入，这种分层式网络能够在理论上逼近或分类任何输入数据。另一方面，同样值得一提的是H-ELM在三个方面区别于ML-ELM方案：1）ML-ELM使用一种简单的层层堆叠结构，且仅仅用ELM自编码器简单地替换了DL自编码器，相比之下，H-ELM采用一种更加全面的方式考虑MLP，它将整个网络分成了两个独立的子系统（如无监督特征提取/显示和有监督特征分类），并且将随机投影产生的特征提取结果作为特征分类子系统的输入2）不同于用于ML-ELM中的L2规范自编码器，L1惩罚项被用于H-ELM，以得到更加简洁和稀疏的隐藏信息3）ML-ELM的正交初始化方法被避免使用，因为当输入节点数目不同于输出时，正交限制便不合理。

B) ELM稀疏自编码器

就如前文所介绍，该H-ELM简要地由两个独立部分组成：1）无监督和2）有监督训练。因为有监督学习的应用已在原始的ELM中体现，在本节，我们将着重于如何训练H-ELM结构的无监督基本模块（如自编码器）。从II-C节中，我们已得知，自编码器旨在学习一个函数,其中,A是隐藏层权重，b

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[138403]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码