登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 电子信息类 > 电子科学与技术 > 正文

深度神经网络中的特征如何可传递外文翻译资料

 2022-08-09 10:08  

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


深度神经网络中的特征如何可传递

Jason Yosinski,1 Jeff Clune,2 Yoshua Bengio,3 和 Hod Lipson4 1 部门.计算机科学,康奈尔大学

2 部门.计算机科学,怀俄明大学

3 部门.计算机科学与运营研究,蒙特利尔大学

4 部门.机械与航空航天工程,康奈尔大学

摘要

许多在自然图像上训练的深度神经网络都表现出一种奇怪的现象:在第一层,它们学习类似于 Gabor 滤波器和颜色斑点的特征。这样的第一层特征似乎不是特异性到特定数据集或任务,但是一般因为它们适用于许多数据集和任务。特征最终必须由网络的最后一层从一般过渡到特定,但这种过渡尚未得到广泛研究。在这篇论文中,我们通过实验量化了深度卷积神经网络每层神经元的普遍性与特异性,并报告了一些令人惊讶的结果。跨生育力受到两个不同问题的负面影响:(1)高级神经元对其原始任务的特化,是以牺牲目标任务的表现为代价,这是可以预期的; (2)与共适应神经元之间分裂网络相关的优化困难,这是无法预期的。在 ImageNet 培训的示例网络中,我们证明这两个问题中的任何一个都可能占主导地位,这取决于功能是从网络的底部、中部还是顶部传输。我们还证明了羽化的可转移性随着基本任务和目标任务之间的距离的增加而降低,但是即使从较远的任务中转移特征也可以比使用随机特征更好。最后一个令人惊讶的结果是,使用从几乎任何层数传输的特性初始化网络可以提高泛化,即使在对目标数据集进行微调后仍然存在。

引言

现代的深度神经网络表现出一种奇特的现象:当对图像进行训练时,它们都倾向于学习类似 Gabor 滤波器或颜色斑点的第一层特征。这些滤波器的出现非常普遍,在自然图像数据集中获得任何其他信息都会产生怀疑选择不当的超参数或软件缺陷。这种现象不仅发生在不同的数据集,甚至发生在非常不同的训练目标下,包括监督图像分类(Krizhevsky等人,2012),无监督密度学习(Lee等人2009 年),以及在无监督下学习稀疏表示(Le等人, 2011)。

因为无论精确的成本函数和自然图像数据集如何,在第一层上找到这些标准特征似乎都会发生,所以我们将这些第一层特征称为一般。另一方面,我们知道,由训练网络的最后一层计算的特征在很大程度上取决于选择的数据集和任务。例如,在具有 N 维 softmax 输出层的网络中,已成功针对监督的分类目标进行了培训,每个输出单元将针对于特定类别,因此我们称之为最后一层特征特异性。这些都是直观的概念,我们将在下文提供更严格的定义。如果第一层特征是一般的,最后一层特征是特定的,那么在网络的某个地方一定有从一般到特定的转变。这一观察结果提出了几个问题:

    • 我们能否量化特定层的一般或特定程度?
    • 过渡是突然发生在单层,还是扩散到多层?
    • 这种转变发生在哪里:靠近网络的第一层、中间层或最后一层?

我们对这些问题的答案很感兴趣,因为在一定程度上网络中的功能是通用的,我们将能够将它们用于转移学习(Caruana,1995;Bengio等人,2011;Bengio,2011)。在转移学习中,我们首先在一个基本数据集和任务的网络中训练了一个基本网络,然后我们重新使用已学习的功能,或转移他们,针对目标数据集和任务进行培训。如果功能是通用的,则该过程将趋向于工作,这意味着适用于基本任务和目标任务,而不是特定于基本任务。

当目标数据集明显小于基础数据集时,传输学习可能是一种强大的工具,能够训练大型目标网络而不会过度拟合;最近的研究利用这一事实,在从更高层传输时获得了最先进的结果(Donahue等人2013a;Zeiler 和 Fergus,2013;Sermanet等人2014 年),共同表明这些层次的神经网络确实计算了相当普遍的特征。这些结果进一步强调了研究这种普遍性的确切性质和程度的重要性。

通常的转移学习方法是训练一个基本网络,然后复制它的第一个n层到第一个n目标网络层,然后随机初始化目标网络的剩余层,并针对目标任务进行培训。可以选择反向传播错误,将新任务添加到基础(复制)特性中,以便将它们调整到新任务中,或已转移的特征层可被留在冷冻,意味着他们在新任务的培训过程中不会改变。是否微调第一个n目标网络的层取决于目标数据集的大小和第一个数据集中的参数数量n层。如果目标数据集较小且参数数量较大,微调可能导致过度拟合,因此这些特征通常被冻结。另一方面,如果目标数据集较大或参数数量较少,过度拟合就不是问题,则可以将基本特性微调到新任务,以提高性能。当然,如果目标数据集非常大,则几乎不需要传输,因为只能从头开始学习目标数据集上的低级筛选器。我们在以下章节中比较了这两种技术(微调特征或冷冻特征)的结果。

在本文中,我们做出了一些贡献:

  1. 我们定义了一种量化特定层的一般或特定程度的方法,即该层的特征如何从一个任务转移到另一个任务(第2节). 然后,我们在 ImageNet 数据集中训练成对的卷积神经网络,并表征从一般到特定的逐层转换(第4节), 得到以下四个结果。
  2. 我们通过实验展示了两个独立的问题,当使用转移的特性而不进行微调时,会导致性能下降:(一) 特性本身的特异性;(二)由于相邻层上共适应神经元之间的基网络分裂而导致的优化困难。我们展示了这两种效应如何在网络的不同层占主导地位。(第 4.1 节)
  3. 我们量化了转移特性的性能益处如何减少基本任务和目标任务的差异。(第 4.2 节)
  4. 在相对较大的 ImageNet 数据集中,我们发现性能低于之前报告的较小数据集(Jarrett等人2009 年),当使用随机下层权重与训练权重计算的特征时。我们将随机重量与转移重量(冷冻和微调)进行比较,发现转移重量表现更好。(第 4.3 节)
  5. 最后,我们发现,在对新数据集进行微调后,使用从几乎任何层数传输的特性初始化网络可以提高泛化性能,这尤其令人惊讶,因为即使经过广泛的微调,看到第一个数据集的影响仍然存在。(第 4.1 节)

根据传输性能测量的通用性与特异性

我们已经注意到 Gabor 滤波器和颜色斑点在训练自然图像的第一层神经网络中出现的奇怪趋势。在本研究中,我们定义了在任务上学习的一组特征的普遍性程度A 功能可用于另一项任务的程度B。值得注意的是,该定义取决于以下定义之间的相似性A 和B。我们创建了分类任务对A 和B 通过构建 ImageNet 数据集的非重叠子集对。1 可以选择这些子集彼此相似或不同。

为了创建任务A 和B,我们将 1000 个 ImageNet 类随机分为两组,每组包含 500 个类和大约一半的数据,或每组约 645,000 个示例。我们训练一个八层卷积网络A ,另一个开启B。这些网络,我们称之为基础数据a和基础数据b,如图的前两行所示1. 然后我们选择一层n来自(1,2,3,,,7),并培训几个新网络。在以下解释和图中1, 我们使用层作为选择n=3的示例层。首先,我们定义并培训了以下两个网络:

A 筛选器网络B3B:第一个3层复制自基础数据 b并冷冻,随机初始化五层 (4-8),并进行数据集培训B,此网络是下一个传输网络的控件。(图1, 第 3 行)

bull;

A 转移网络A3B:第一个3层复制自基础数据a并冷冻,随机初始化五层 (4-8),并进行数据集培训B。直观地说,这里我们复制了第一个3来自网络的层接受了数据集培训A ,然后在它们之上学习更高级的特征来对新的目标数据集进行分类B. 如果A3B 表现良好则基础数据b有证据表明,至少在B,第三层特征是一般的。如果性能受到影响,则有证据表明第三层功能特定于A。(图1, 第 4 行)

bull;

我们对来自于(1,2,,,7)2的所有n在两个方向(AnB和BnA)重复这个过程。在上述两个网络中,传输层是冷冻。我们还创建了上述两个网络的版本,其中传输的层是微调:

{ }

    • A 筛选器网络B3B :就像B3B但所有层都在学习。
    • A 转移网络A3B :就像A3B但所有层都在学习。

为了创建彼此相似的基础和目标数据集,我们将 1000 个 ImageNet 类中的一半随机分配到A和B。ImageNet 包含类似类的集群,特别是狗和猫,就像生物家族的这 13 个类猫科: 塔比猫、虎猫、波斯猫、埃及猫、山狮、猞猁、豹子、雪豹、美洲虎、狮子、老虎、猎豹。平均而言,A 和B 将分别包含这些猫科动物类中的大约 6 或 7 个,这意味着在每个数据集上训练的基础网络将在所有级别上具有帮助分类某些类型猫科动物的功能。当推广到另一个数据集时,我们预计在旧的低水平猫科动物检测器之上训练的新的高水平猫科动物检测器会很好地工作。因此A 和B 当通过随机分配类来创建时是相似的,我们期望传输的特性将比A 和B 不太相似。

}

{

幸运的是,在 ImageNet 中,我们还提供了父类的层次结构。此信息允许我们将数据集创建为两半,两半在语义上尽可能不同:使用数据集A 仅包含人造的实体和B含天然实体。分裂并不完全均匀,人造组有 551 个班,自然组有 449 个班。补充材料中给出了该拆分和每一半类别的更多详细信息。在第 4.2 节中,我们将证明当数据集不太相似时,特征传输更差(即,它们更具体)。

1ImageNet 数据集,如 2012 年大规模视觉识别挑战 (ILSVRC2012)(Deng等人2009 年)包含 1,281,167 个标记训练图像和 50,000 个测试图像,每个图像标记 1000 个类中的一个。

2注意n = 8 在这两种情况下都没有意义:B8B 只是基础数据b和A8B 不会起作用,因为它从未接受过培训B.

输入 A

WA1

WA2

WA3

WA4

WA5

WA6

WA7

WA8

输入 B

WB1

WB2

WB3

WB4

WB5

WB6

WB7

WB8

标签 A

标签 B

基础数据 a

基础数据 b

B3B

WB1

WB2

WB3

or

or

or

和 B3B

A3B

WA1

WA2

WA3

or

or

or

和 A3B

图 1:实验处理和对照品概述。前两行:仅在一半 ImageNet 数据集中使用标准监督备份训练基础网络(第一行:一半A,第二行:一半B)。标记的矩形(例如WA1)表示为该层学习的权重向量,颜色指示该层最初训练的数据集。权重向量之间的垂直椭圆体条代表每层网络的激活。第三行:在筛选器网络控制,第一n网络的权重层(在本示例中,n=3)从基础网络(例如:接受过数据集培训的网络)复制B)上8n层被随机初始化,然后整个网络在同一数据集(在此示例中,数据集B)。第一个n培训期间锁定层(“冻结”自我治疗)B3B)或允许学习(“微调”的自我治疗B3B )。这种治疗揭示了发生脆弱的共适应,当相邻层上的神经元在训练过程中以这样的方式共同适应时,当一层被冻结时就无法重新发现。第四行:事件转移网络实验处理与自我处理相同,只是先n从一个接受过一个数据集培训的网络复制层(例如:A)然后整个网络在其他数据集(例如B)。该治疗测试层上特征的程度n具有普遍性或特异性。

minus;

实验装置

自 Krizhevsky等人(2012) 赢得了 ImageNet 2012 的竞争,人们对调整大卷积模型的超参数产生了很大的兴趣和努力。然而,在这项研究中,我们的目的不是最大化绝对性能,而是研究在一个众所周知的架构上的转移结果。我们使用 Caffe(Jia等人,2014),这样我们的结果将具有可比性、可扩展性,并对大量研究人员有用。培训设置(学习率等)的更多详情见补充材料,用于重现这些实验的代码和参数文件可参见http://yosinski.com/transfer

结果和讨论

我们进行了三组实验。主实验具有随机A/B 在第 4.1 节和第 4.2 节中讨论了人造/天然分裂的实验。第 4.3 节描述了具有随机重量的实验。

0.66

0

基础数据 b

随机 BnB 随机 BnB 转移 AnB 转移 AnB

1

2

3

4

5

6

7

0.64

0.62

To

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239465],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图